Прогресс

Anthropic обучила рассуждающий ИИ в разы дешевле конкурентов

Снижение стоимости обучения может указывать на удешевление разработки ИИ-систем. Гендиректор Anthropic Дарио Амодеи уточнил, что обучение предыдущей модели Claude 3.5 Sonnet стоило примерно столько же. Для сравнения, OpenAI потратила на разработку GPT-4 $100 млн, а Google, по оценкам, вложила в обучение Gemini Ultra около $200 млн.

Однако Амодеи не ожидает, что в будущем затраты продолжат снижаться. Бесконечно экономить за счет передовых методик обучения не получится. По его словам, обучение ИИ будет обходиться в миллиарды долларов, не считая расходов на тестирование безопасности и фундаментальные исследования. Новые «рассуждающие» модели требуют больше вычислительных ресурсов, так как дольше обрабатывают запросы.

Claude 3.7 Sonnet — https://hightech.plus/2025/02/25/anthropic-vipustila-pervuyu... , которая сочетает мгновенный ответ с возможностью углубленного анализа. Пользователи могут выбирать, использовать ли режим «рассуждения», который позволяет модели обрабатывать запрос дольше для более точного результата. В отличие от большинства чат-ботов, где нужно выбирать между разными моделями с разной стоимостью, Anthropic предлагает универсальное решение. Компания оптимизировала Claude 3.7 Sonnet для сложных задач, таких как программирование и работа с API, что делает её конкурентоспособной в тестах.

В испытаниях на программирование Claude 3.7 Sonnet показала результат 62,3% на SWE-Bench, тогда как o3-mini от OpenAI набрал 49,3%. В тесте TAU-Bench, оценивающем взаимодействие с API, модель достигла 81,2% против 73,5% у конкурента.

Claude 3.7 Sonnet также лучше фильтрует вредные запросы и на 45% реже отказывается отвечать по сравнению с предшественницей. Однако режим «рассуждения» доступен только платным подписчикам, а стоимость использования модели выше, чем у некоторых аналогов.

Между тем DeepSeek, которая задала мировой тренд на экономное обучение ИИ-моделей, продолжает продвигать свой продукт и привлекать пользователей за пределами Китая. Стартап https://www.bloomberg.com/news/articles/2025-02-26/deepseek-... доступа к модели DeepSeek V3 для разработчиков вдвое в ночное время — с 00:30 до 8:30 по пекинскому времени. Кроме того, использование модели R1 через API станет дешевле на 75%.

Так компания пытается сбалансировать нагрузку на свою инфраструктуру, которая увеличилась из-за роста популярности облачных сервисов. В Китае DeepSeek активно используют не только частные разработчики, но и крупные технологические компании, такие как Tencent Holdings и Perplexity AI. Государственные учреждения тоже пользуются сервисами DeepSeek, поскольку местные законы запрещают передавать данные за границу.

Компания уже предупреждала пользователей о возможных проблемах с доступом в дневные часы. Снижение стоимости ночью должно перераспределить нагрузку, сделав работу системы стабильнее. Для клиентов за пределами Китая, особенно в других часовых поясах, ночной тариф может оказаться ещё выгоднее. Однако в ряде стран, включая Италию и Южную Корею, чиновникам запретили использовать DeepSeek.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Кейсы

Хайтек+

Свежие комментарии

Прогресс

Anthropic обучила рассуждающий ИИ в разы дешевле конкурентов