Nvidia продемонстрировала ИИ-модель для создания музыки и аудио. Она может изменять голоса и генерировать новые звуки.
Nvidia продемонстрировала ИИ-модель для создания музыки и аудио. Она может изменять голоса и генерировать новые звуки.
Технология Fugatto предназначена для создателей музыки, фильмов и видеоигр.
Нейросеть способна генерировать звуковые эффекты и музыку по промптам. Например, можно создать «аудио лающей как собака трубы». В качестве другого примера назван звук «глубоких, грохочущих басовых импульсов в сочетании с периодическим высокочастотным цифровым щебетом — словно звук просыпающейся огромной разумной машины».
Отличительной особенностью решения Nvidia является способность анализировать и изменять существующий звук. Например, она может сыгранную на пианино мелодию преобразовать в пение человека.
«Если мы подумаем о синтетическом аудио за последние 50 лет, то сейчас музыка звучит иначе благодаря компьютерам, синтезаторам. Я думаю, что генеративный ИИ привнесет новые возможности в музыку, видеоигры и обычным людям, которые хотят создавать что-то новое», — прокомментировал вице-президент по исследованиям в области глубокого обучения Nvidia Брайан Катандзаро.
Новая модель компании настроена на базе данных из открытых источников. Фирма обдумывает варианты ее представления общественности.
«Любая генеративная технология всегда несет в себе некоторые риски, потому что люди могут использовать ее для создания вещей, которые мы бы не хотели, чтобы они создавали», — подчеркнул Катандзаро.
Напомним, Google DeepMind анонсировала разработку технологии на базе искусственного интеллекта для создания саундтреков к видео.