Yeni ve zorlu bir AGI testi çoğu yapay zeka modelini afallatıyor | TechCrunch

Illustrate an image in a positive and light style, maintaining 3:2 aspect ratio. Display a variety of visual puzzles and patterns, symbolizing an AGI test. The puzzles can be made up of geometric shapes, intricate designs or complex mazes. Additionally, add a division showing human and AI participants. On the human side, indicate variety by illustrating a Caucasian man, an Asian woman, and a Black child enthusiastically solving the puzzles. On the AI side, show digital bots in different shapes and sizes trying to interpret the puzzles. Also, feature representations of AI models, such as circuits or binary codes, scoring lower than the human individuals. Lastly, incorporate a scoreboard showing humans scoring higher than AI models.

Arc Prize Foundation tarafından yapay zeka modellerinin genel zekasını değerlendirmek üzere ARC-AGI-2 adı verilen yeni bir yapay zeka testi geliştirildi. Yapay zeka araştırmacısı François Chollet tarafından kurulan test, OpenAI’nin o1-pro ve DeepSeeks R1 gibi önde gelen modellerin %1 ile %1,3 arasında puan almasıyla zorlu olduğunu kanıtladı. Buna karşılık, teste katılan insanlar ortalama %60 puan elde etti. ARC-AGI-2 testi, yapay zekanın görsel kalıpları tanımlamasını ve yeni zorluklara uyum sağlamasını gerektiren bulmaca benzeri problemler içeriyor. Bu yineleme, kaba kuvvet hesaplamasına dayanmak yerine verimliliği ve kalıpları yorumlama yeteneğini vurgulayarak önceki testin kusurlarını gidermeyi amaçlıyor. Chollet yeni testin, modellerin sadece çözümleri ezberlemesini engellediği için yapay zekanın daha iyi bir ölçüsü olduğunu belirtti. Vakıf ayrıca, geliştiricileri maliyetleri en aza indirirken yeni testte %85 doğruluk oranına ulaşmaya teşvik eden bir yarışma başlattı. Genel olarak ARC-AGI-2, yapay zekanın yeteneklerini değerlendirmek için daha incelikli bir ölçüt sağlamayı amaçlamaktadır.

Makalenin tamamı

Bir yanıt yazın