Сбер научил GigaChat писать музыку по текстовому запросу
Сбер интегрировал в GigaChat нейросети CLaMP и SymFormer. Это позволит GigaChat генерировать музыкальные треки по произвольным текстовым запросам пользователей.
Пользователю нужно сформулировать задачу, например, «сочини веселую музыку в стиле кантри» или «напиши трек для лаундж-зоны бизнес-центра». GigaChat пришлет аудиофайл с уникальной музыкальной композицией и даже нотную партитуру в формате MIDI.
При этом создание музыки происходит в несколько этапов:
- Сначала модель CLaMP обрабатывает запрос пользователя и конвертирует его в понятный для генератора мелодий язык.
- Затем в SymFormer генерируется несколько вариантов мультидорожечного трека, из которых нейросеть выбирает наиболее удачные варианты по стилю и композиции.
- На последнем этапе формируется аудиофайл и передается пользователю.
Об этом рассказал Денис Филиппов, вице-президент по цифровым поверхностям «Салют» Сбербанка, в рамках международной конференции по искусственному интеллекту AI Journey 2023.
Одним из сегментов целевой аудитории сервиса мы видим представителей среднего и малого предпринимательства. Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, салонов красоты и залов ожидания, генерировать треки для рекламных видеороликов и соцсетей.
Для обучения SymFormer использовались платформа ML Space на базе суперкомпьютера Christofari и датасет из более 200 тысяч композиций разных стилей: от классики до современной электронной музыки и рока.
По ссылке собрали все новости про GigaChat.
Источник: Код Дурова