A Look at Upcoming Innovations in Electric and Autonomous Vehicles Claude Fable 5 обогнал всех. ИИ штурмует рынок труда

Claude Fable 5 обогнал всех. ИИ штурмует рынок труда

Claude Fable 5 обогнал всех. ИИ штурмует рынок труда

ИИ-агент Claude Fable 5 установил рекорд Remote Labor Index - бенчмарка, где модели соревнуются не с синтетическими задачами, а с реальными фриланс-заказами. 16,1% проектов агент закрыл на уровне живого подрядчика или лучше. За восемь месяцев существования теста планка выросла в шесть раз. Это уже не лабораторный прогресс - это конкретные деньги и конкретная работа.

Что такое RLI и почему он важнее обычных тестов

Remote Labor Index запустили в конце октября 2025 года CAIS и Scale Labs. Идея простая, но жёсткая: никаких академических задач. Агенту дают настоящие заказы с фриланс-платформ - 3D-моделирование, CAD, архитектурные проекты, дизайн, монтаж видео, аудиопродакшн, аналитику данных, веб-приложения. Живой эксперт смотрит на результат и сравнивает его с работой оплаченного профессионала. Принял - засчитал. Не принял - мимо.

Ключевая метрика - automation rate: доля проектов, где агент выступил не хуже человека. Планка намеренно не идеальная. Реальные фрилансеры тоже не безгрешны, и бенчмарк это учитывает. Главный вопрос не «справился ли ИИ идеально», а «справился ли он так же, как справился бы нанятый специалист».

Цифры: от 2,5% до 16,1% за восемь месяцев

Когда RLI только стартовал, лучший результат составлял 2,5%. Потом Opus 4.6 в связке с Claude Cowork дотянул до 4,17% - и это считалось прорывом. Теперь Fable 5 показал 16,1%. Для сравнения: Opus 4.8 остановился на 8,3%, GPT-5.5 - на 6,3%.

МодельAutomation Rate
Claude Fable 516,1%
Opus 4.88,3%
GPT-5.56,3%
Opus 4.6 + Cowork4,17%
Лучший агент на старте (октябрь 2025)2,5%

Есть нюанс. Из 240 проектов бенчмарка Fable 5 прогнали только 218 - после чего американские власти ограничили доступ к модели. Оставшиеся 22 задачи равномерно рассеяны по всем уровням сложности. Даже если бы агент провалил их все без исключения, итог всё равно составил бы 14,6% - выше, чем у любого конкурента.

Где ИИ пока не дотягивает - и почему это важно понимать

16% - это рекорд. Но одновременно это честный сигнал о дистанции, которая ещё остаётся. Авторы теста приводят показательный пример: в задаче на 3D-моделирование кольца с заменой огранки камня Fable 5 заметно обошёл предыдущие модели. И всё равно не прошёл. Оправа получилась слишком грубой, детали - недоработанными. Профессионалом такую работу не назовёшь.

Именно это и делает RLI ценным инструментом. Он не фиксирует, насколько умно рассуждает модель. Он показывает, сколько реальных заказов агент способен довести до приёмки. Разница между «впечатляющим ответом» и «оплаченной работой» - принципиальная.

Темп роста при этом не замедляется. Шестикратный скачок за восемь месяцев - это не статистический выброс. Это траектория. И следующие обновления RLI покажут, удержится ли она.