Tes AGI baru yang menantang membuat sebagian besar model AI tidak dapat digunakan | TechCrunch

Illustrate an image in a positive and light style, maintaining 3:2 aspect ratio. Display a variety of visual puzzles and patterns, symbolizing an AGI test. The puzzles can be made up of geometric shapes, intricate designs or complex mazes. Additionally, add a division showing human and AI participants. On the human side, indicate variety by illustrating a Caucasian man, an Asian woman, and a Black child enthusiastically solving the puzzles. On the AI side, show digital bots in different shapes and sizes trying to interpret the puzzles. Also, feature representations of AI models, such as circuits or binary codes, scoring lower than the human individuals. Lastly, incorporate a scoreboard showing humans scoring higher than AI models.

Sebuah tes AGI baru, yang disebut ARC-AGI-2, telah dikembangkan oleh Arc Prize Foundation untuk menilai kecerdasan umum model AI. Didirikan oleh peneliti AI François Chollet, tes ini telah terbukti menantang, dengan model-model terkemuka seperti OpenAI & #8217; s o1-pro dan DeepSeeks R1 mendapat skor antara 1% dan 1,3%. Sebaliknya, manusia yang berpartisipasi dalam tes ini mencapai skor rata-rata 60%. Tes ARC-AGI-2 menampilkan masalah seperti teka-teki yang membutuhkan AI untuk mengidentifikasi pola visual dan beradaptasi dengan tantangan baru. Iterasi ini bertujuan untuk memperbaiki kekurangan dari pendahulunya, menekankan efisiensi dan kemampuan untuk menafsirkan pola daripada mengandalkan komputasi brute-force. Chollet mencatat bahwa tes baru ini merupakan ukuran yang lebih baik untuk kecerdasan AI, karena mencegah model untuk hanya menghafal solusi. Yayasan ini juga telah meluncurkan kontes yang mendorong para pengembang untuk mencapai akurasi 85% pada tes baru ini sambil meminimalkan biaya. Secara keseluruhan, ARC-AGI-2 berupaya memberikan tolok ukur yang lebih bernuansa untuk mengevaluasi kemampuan AI.

Artikel lengkap

Tinggalkan Balasan