ИИ-агент Claude Fable 5 установил рекорд Remote Labor Index - бенчмарка, где модели соревнуются не с синтетическими задачами, а с реальными фриланс-заказами. 16,1% проектов агент закрыл на уровне живого подрядчика или лучше. За восемь месяцев существования теста планка выросла в шесть раз. Это уже не лабораторный прогресс - это конкретные деньги и конкретная работа.
Что такое RLI и почему он важнее обычных тестов
Remote Labor Index запустили в конце октября 2025 года CAIS и Scale Labs. Идея простая, но жёсткая: никаких академических задач. Агенту дают настоящие заказы с фриланс-платформ - 3D-моделирование, CAD, архитектурные проекты, дизайн, монтаж видео, аудиопродакшн, аналитику данных, веб-приложения. Живой эксперт смотрит на результат и сравнивает его с работой оплаченного профессионала. Принял - засчитал. Не принял - мимо.
Ключевая метрика - automation rate: доля проектов, где агент выступил не хуже человека. Планка намеренно не идеальная. Реальные фрилансеры тоже не безгрешны, и бенчмарк это учитывает. Главный вопрос не «справился ли ИИ идеально», а «справился ли он так же, как справился бы нанятый специалист».
Цифры: от 2,5% до 16,1% за восемь месяцев
Когда RLI только стартовал, лучший результат составлял 2,5%. Потом Opus 4.6 в связке с Claude Cowork дотянул до 4,17% - и это считалось прорывом. Теперь Fable 5 показал 16,1%. Для сравнения: Opus 4.8 остановился на 8,3%, GPT-5.5 - на 6,3%.
| Модель | Automation Rate |
|---|---|
| Claude Fable 5 | 16,1% |
| Opus 4.8 | 8,3% |
| GPT-5.5 | 6,3% |
| Opus 4.6 + Cowork | 4,17% |
| Лучший агент на старте (октябрь 2025) | 2,5% |
Есть нюанс. Из 240 проектов бенчмарка Fable 5 прогнали только 218 - после чего американские власти ограничили доступ к модели. Оставшиеся 22 задачи равномерно рассеяны по всем уровням сложности. Даже если бы агент провалил их все без исключения, итог всё равно составил бы 14,6% - выше, чем у любого конкурента.
Где ИИ пока не дотягивает - и почему это важно понимать
16% - это рекорд. Но одновременно это честный сигнал о дистанции, которая ещё остаётся. Авторы теста приводят показательный пример: в задаче на 3D-моделирование кольца с заменой огранки камня Fable 5 заметно обошёл предыдущие модели. И всё равно не прошёл. Оправа получилась слишком грубой, детали - недоработанными. Профессионалом такую работу не назовёшь.
Именно это и делает RLI ценным инструментом. Он не фиксирует, насколько умно рассуждает модель. Он показывает, сколько реальных заказов агент способен довести до приёмки. Разница между «впечатляющим ответом» и «оплаченной работой» - принципиальная.
Темп роста при этом не замедляется. Шестикратный скачок за восемь месяцев - это не статистический выброс. Это траектория. И следующие обновления RLI покажут, удержится ли она.