Google представила «рассуждающую» модель Gemini 2.5 — она умнее o3-mini и DeepSeek R1

Google уже тестировала «мыслящие» ИИ-модели — например, в декабре выпустила экспериментальную версию Gemini с логическим мышлением. Но Gemini 2.5 — это ее первый по-настоящему серьезный шаг в гонке с OpenAI и их моделями серии «o». Компания заявляет, что Gemini 2.5 Pro обходит предыдущие топовые модели Google, а также лидеров рынка, на многих бенчмарках.

В тесте Aider Polyglot, который оценивает способности ИИ в редактировании кода, Gemini 2.5 Pro показала результат 68,6%. Этот выше, чем у ведущих моделей OpenAI, Anthropic и китайской лаборатории DeepSeek. В другом тесте SWE-bench Verified, проверяющем навыки разработки ПО, Gemini 2.5 Pro набрала 63,8%. С таким показателем она превосходит o3-mini от OpenAI и R1 от DeepSeek, но уступает модели Claude 3.7 Sonnet от Anthropic, у которой 70,3%.

Gemini 2.5 Pro также показала результат 18,8% в тесте Humanity’s Last Exam, который включает тысячи вопросов из разных областей (математика, гуманитарные и естественные науки). По данным Google, это превосходит большинство флагманских моделей конкурентов.

Gemini 2.5 Pro поддерживает контекстное окно в 1 млн токенов — это примерно 750 тысяч слов за один запрос. Такой объем превышает весь текст трилогии «Властелин Колец». В ближайшее время модель получит больше возможностей, например, поддержку 2 млн токенов, что вдвое увеличит ее «вместимость». В целом, Gemini 2.5 Pro разработана с упором на создание стильных веб-приложений и coding-агентов.

Доступ уже открыт. Разработчики могут тестировать модель в Google AI Studio, а подписчики Gemini Advanced ($20 в месяц) — в приложении Gemini.

Стоимость API пока неизвестна — компания обещает опубликовать детали позже. В будущем все ИИ-модели Google получат встроенные функции логического вывода.

Выпуск «рассуждающей» модели o1 от OpenAI в сентябре 2024 года запустил гонку технологий. Anthropic, DeepSeek, Google и xAI уже представили свои аналоги — ИИ с расширенными возможностями логического анализа. Эти модели потребляют больше вычислительных ресурсов для проверки данных и обдумывания задач, что улучшает их результаты в математике и программировании. Эксперты рассматривают такие системы как основу для создания автономных ИИ-агентов будущего. Однако за повышенную производительность приходится платить — эти модели значительно дороже в эксплуатации.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов