Warning: session_start(): open(/var/www/bdgsite/data/mod-tmp/sess_di92iv4ffbplttnlb7vasfb07a, O_RDWR) failed: No space left on device (28) in /var/www/bdgsite/data/www/cryptoconnect.su/index.php on line 17

Warning: session_start(): Failed to read session data: files (path: /var/www/bdgsite/data/mod-tmp) in /var/www/bdgsite/data/www/cryptoconnect.su/index.php on line 17
Новый тест поставил в тупик большинство ИИ-моделей - Новости криптовалют - Все о криптовалютах

Популярные криптовалюты

BTC $80,877.53 +1.46%
ETH $2,380.97 +0.74%
SOL $84.9 +0.11%
ZEC $422.82 +2.25%
DOGE $0.11155 -0.50%
ATH $0.006224 +0.04%
TON $1.819 +30.96%

Новый тест поставил в тупик большинство ИИ-моделей

Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей. 

Некоммерческая организация Arc Prize объявила о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей. 

Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа. 

Пример вопроса из ARC-AGI-2. Данные: Arc Prize.

Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался. 

«Разумные» нейросети вроде o1-pro от OpenAI и R1 от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%.

Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек. 

Сооснователь организации Франсуа Шолле подчеркнул, что новый бенчмарк призван измерить гибкость искусственного интеллекта, а не запоминание навыков.

Today, we're releasing ARC-AGI-2. It's an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp

— François Chollet (@fchollet) March 24, 2025

Он добавил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям полагаться на «грубую силу» — применение большого количества вычислительных ресурсов для поиска решения. Это было главным недостатком предыдущей версии бенчмарка. 

«Интеллект определяется не только способностью решать проблемы или достигать высоких результатов. Эффективность, с которой эти навыки приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос, который мы задаем, заключается не только в том, может ли ИИ приобрести [навык] для решения задачи, но и в том, с какой эффективностью или ценой [он это сделает]», — отметил соучредитель Arc Prize Foundation Грег Камрадт.

ИИ-модели не могли пройти ARC-AGI-1 на протяжении примерно пяти лет — до декабря 2024 года, когда OpenAI выпустила «думающий» ИИ o3. Он сравнялся с человеческими показателями. 

Версия модели o3 (low) набрала 75,7% баллов в тесте ARC-AGI-1 и 4% в ARC-AGI-2. Данные: Arc Prize.

Ранее ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в файловой системе самостоятельно и без подсказок взломала тестовую среду, чтобы не проиграть Stockfish в шахматы.

Напомним, в январе 2025 года ведущие нейросети проиграли в шахматном турнире, несмотря на применение запрещенных ходов.

RSS 25.03.2025 1 174
Источник: https://forklog.com/news/ai/novyj-test-postavil-v-tupik-bolshinstvo-ii-modelej