Sebuah tes AGI baru, yang disebut ARC-AGI-2, telah dikembangkan oleh Arc Prize Foundation untuk menilai kecerdasan umum model AI. Didirikan oleh peneliti AI François Chollet, tes ini telah terbukti menantang, dengan model-model terkemuka seperti OpenAI & #8217; s o1-pro dan DeepSeeks R1 mendapat skor antara 1% dan 1,3%. Sebaliknya, manusia yang berpartisipasi dalam tes ini mencapai skor rata-rata 60%. Tes ARC-AGI-2 menampilkan masalah seperti teka-teki yang membutuhkan AI untuk mengidentifikasi pola visual dan beradaptasi dengan tantangan baru. Iterasi ini bertujuan untuk memperbaiki kekurangan dari pendahulunya, menekankan efisiensi dan kemampuan untuk menafsirkan pola daripada mengandalkan komputasi brute-force. Chollet mencatat bahwa tes baru ini merupakan ukuran yang lebih baik untuk kecerdasan AI, karena mencegah model untuk hanya menghafal solusi. Yayasan ini juga telah meluncurkan kontes yang mendorong para pengembang untuk mencapai akurasi 85% pada tes baru ini sambil meminimalkan biaya. Secara keseluruhan, ARC-AGI-2 berupaya memberikan tolok ukur yang lebih bernuansa untuk mengevaluasi kemampuan AI.
