GPT-5.5 опередил Claude Fable 5 в сложном тесте ALE

GPT-5.5 неожиданно показал лучшие результаты, чем Claude Fable 5, в новом тесте Agents’ Last Exam (ALE) для ИИ.

Сравнение результатов GPT-5.5 и Claude Fable 5 на бенчмарке Agents’ Last Exam для ИИ.

Неожиданный результат на новом бенчмарке Agents’ Last Exam (ALE): модель GPT-5.5 от OpenAI превзошла конкурента Claude Fable 5. Это важный момент для оценки способностей современных систем искусственного интеллекта.

Тест Agents’ Last Exam был разработан исследователями из Центра ответственного децентрализованного интеллекта Калифорнийского университета в Беркли при участии более 300 экспертов. ALE призван измерять, насколько хорошо ИИ справляется со сложными задачами, имитирующими реальное применение. Результаты показывают, что GPT-5.5 продемонстрировал превосходство над Claude Fable 5, что может указывать на лидерство в определённых областях понимания и рассуждения.

Появление новых, более строгих бенчмарков, таких как ALE, позволяет объективнее оценивать прогресс в развитии ИИ. Это помогает разработчикам лучше понимать сильные и слабые стороны моделей, а пользователям — делать более информированный выбор.