Gemini 1.5 Pro расширяет границы ИИ с помощью аудиоанализа

mlx · Apr 11, 2024

Google представила обновление своей модели искусственного интеллекта Gemini 1.5 Pro, добавив возможность анализа аудиофайлов. Теперь модель может слушать аудио, например, с аудиоконференций или видеоматериалов, и извлекать из них информацию без необходимости преобразования в текстовую транскрипцию.

На мероприятии Google Next компания также объявила о публичном доступе к Gemini 1.5 Pro через свою платформу для создания приложений на основе искусственного интеллекта Vertex AI. Новая версия была впервые представлена в феврале и уже превзошла по производительности самую мощную модель в семействе Gemini – Gemini Ultra. Отмечается, что Gemini 1.5 Pro способна понимать сложные инструкции и обходится без дополнительной настройки.

Доступ к Gemini 1.5 Pro ограничен для пользователей, не имеющих доступа к Vertex AI и AI Studio. В настоящее время широкая публика знакомится с языковыми моделями Gemini через чат-бота Gemini, где Gemini Ultra используется для питания Gemini Advanced. Несмотря на мощные возможности и понимание длинных команд, Gemini Ultra уступает по скорости Gemini 1.5 Pro.

Gemini 1.5 Pro не единственная модель искусственного интеллекта от Google, получившая обновление. Модель генерации текста в изображение Imagen 2 теперь включает функции редактирования изображений, позволяя добавлять или удалять элементы на картинках. Некоторые функции Imagen, включая редактирование изображений, уже были доступны в моделях других разработчиков и на смартфонах Samsung Galaxy нового поколения.

Также Google внедрила функцию цифрового водяного знака SynthID для всех изображений, созданных моделями Imagen, что позволяет определить происхождение изображения с помощью специального инструмента.

Google также организовала предварительный просмотр технологии, позволяющей подкреплять ответы ИИ актуальной информацией из поиска Google. Метод стал ответом на критику, связанную с недостоверностью некоторых ответов ИИ-моделей, в том числе и ограничение Gemini в ответах на вопросы, касающиеся выборов в США 2024 года.

Gemini также столкнулась с критикой за создание изображений с исторически некорректными персонажами. Пользователи в сети начали подшучивать над странными принципами работы модели. На различных платформах распространялись посты, демонстрирующие, что Gemini настолько упорно следует этическим настройкам, что искажает образы исторических персонажей.

Основным нововведением в Gemini 1.5 Pro при релизе модели стала технология «Mixture of Experts» (MoE), позволяющая обрабатывать запросы более эффективно и экономично. Одна большая нейросеть теперь будет разделена на множество мелких «экспертных» нейросетей, которые смогут давать более точные ответы и развиваться независимо друг от друга, что упростит процесс их дальнейшего обучения.

Search

Search

Gemini 1.5 Pro расширяет границы ИИ с помощью аудиоанализа

mlx

Midle Weight