IT

Сэм Альтман: "Популярность генерации изображений в ChatGPT плавит процессоры"

Согласно https://www.theverge.com/news/637542/chatgpt-says-our-gpus-a... , пользователи бесплатной версии ChatGPT вскоре смогут создавать лишь 3 изображения в день. Это не первое ограничение: ранее OpenAI уже отложила полноценный запуск генератора изображений для бесплатных подписчиков, но этого оказалось недостаточно, чтобы справиться с нагрузкой.

Причиной ажиотажа стал новый инструмент 4o Image Generation (сокращённо 4o IG), встроенный в модель GPT-4o. Эта система обеспечивает по-настоящему мультимодальную генерацию изображений: текстовые и визуальные токены обрабатываются и генерируются одним и тем же нейросетевым механизмом.

Это позволяет более точно следовать контексту диалога, обрабатывать изображения и редактировать их на лету. Среди улучшений — более реалистичная визуализация, высокая точность отображения текста (в отличие от прежних моделей DALL-E) и возможность пошаговой модификации изображений с помощью текстовых команд.

Например, https://www.reddit.com/r/atrioc/comments/1jkqfvh/chatgpt_one... , как быстро создать реалистичную обложку для видеоролика: достаточно дать нейросети исходное фото и визуальные инструкции.

Однако всё это требует огромных вычислительных ресурсов. В отличие от диффузионных моделей, которые создают изображения из шума, 4o IG строит картинку последовательно, токен за токеном. Это делает процесс гораздо более медленным (от 30 секунд до минуты и более) и энергозатратным.

Тем не менее, OpenAI активно продвигает 4o IG как универсальный инструмент для работы с визуальным контентом — от инфографики и логотипов до редактирования пользовательских фото.

Новинка уже доступна пользователям ChatGPT Free, Plus, Pro и Team, а доступ для корпоративных клиентов ожидается позже.

Но рост возможностей вызывает и рост беспокойства. Сообщество активно https://arstechnica.com/ai/2025/03/openais-new-ai-image-gene... , стилизацией под известных авторов (например, в стиле Studio Ghibli) и созданием поддельных скриншотов. Это снова поднимает вопросы авторского права, этики и доверия к визуальному контенту. Несмотря на внедрение метаданных C2PA, подтверждающих происхождение изображений, они легко удаляются, а значит — потенциальные манипуляции остаются возможными.

Сэм Альтман признаёт риск: «Люди создадут как потрясающие, так и, возможно, оскорбительные вещи. Наша цель — чтобы инструмент создавал оскорбительное только по запросу. Мы уважаем рамки, которые общество в итоге выберет для ИИ».