Гость «Подкастового общества» — Андрей, автор YouTube-канала «Ай, гитарист!».
Развитие нейронных сетей на данном этапе позволяет не только создавать пародии на известных музыкальных исполнителей, но и восстанавливать голоса знаменитостей из доцифровой эпохи. Об искусстве нейрокаверов и значении криптовалют для рынка ИИ-музыки рассказал Андрей, автор YouTube-канала «Ай, гитарист!».
ForkLog (FL): Андрей, твои нейрокаверы набирают миллионы просмотров. Востребован ли такой вид искусства сейчас?
Андрей: Думаю, да. У меня сложилась аудитория, которая приходит за ностальгией, за голосами уже давно почивших исполнителей — Цоя, Летова. Это их поклонники, и может быть их не супермиллионы как в попсе, но все-таки это значимое количество. Для меня это очень особенно.
FL: Как ты пришел в музыку?
Андрей: Я играю на гитаре с 13 лет. Начинал еще на старой отцовской, производства Черниговской мебельной фабрики. И так это со мной осталось на всю жизнь — как хобби. Потом пошли рокерские тусовки, андерграунд. По жизни я занимался совсем другими вещами, но последние два с половиной года снова плотно занялся музыкой.
FL: Когда начал заниматься нейрокаверами и почему чаще всего обращаешься к голосу Летова?
Андрей: Рок-музыку я слушал всегда, а Летов и Цой — признанные легенды русского рока. Конкретно с Летовым меня познакомил брат, который был его большим поклонником, привозил кассеты из Москвы.
Когда я научился играть на гитаре, пришла идея перепевать исполнителей. У голоса Летова есть определенный шарм, некая безысходность. Если его голосом исполнять песни из мультфильмов, они выходят очень душевными, даже душераздирающими.
В 2023 году я начал заниматься нейрокаверами, и первой моделью голоса, которая у меня появилась, как раз был Летов. Тогда в среде молодежи у него начался второй виток популярности, уже после смерти.
FL: Как происходит процесс создания трека?
Андрей: Изначально я все пропеваю, набрасываю некий черновик. Песню выбираю либо сам, либо ту, которую мне советуют подписчики в комментариях.
Большая часть процесса на мне. Далее в нейросети RVC накладываю голосовую модель, затем обрабатываю все в аудиоредакторе Ableton. Также используют другие нейросети для постобработки: ElevenLabs, Adobe Podcast.
Первые нейрокаверы я делал на общедоступной голосовой модели, сейчас уже полтора года пользуюсь собранной самостоятельно, обученной на определенных альбомах Летова. При этом за манеру и подачу все равно отвечает живой человек, нейросеть с этим не справится.
FL: Как оборудована твоя студия?
Андрей: Набор инструментов абсолютно стандартный. Единственное, я советую купить хороший аудиоинтерфейс. У меня аудиоинтерфейс iCON Duo 22 Dyna, в нем есть вход под гитару и конденсаторный микрофон. Микрофон и наушники Superlux, недорогие.
FL: По факту нейрокаверы создаются в реальном времени?
Андрей: Нейросеть RVC накладывает голосовую модель в реальном времени. Самое важное синхронизировать гитару и голос, потому что видеокарте нужна примерно пара секунд для обработки. У меня стоит локальная RTX 3090, не самая мощная. Но для нейросетей важна именно видеопамять, тут она идет 34 ГБ — еще на пару лет мне ее хватит.
FL: Что сейчас происходит на рынке ИИ-музыки?
Андрей: Уже больше года с момента выхода первых моделей Suno люди генерируют свою музыку, выкладывают ее на площадки и монетизируют. Это спровоцировало ряд крупных судебных процессов между звукозаписывающими лейблами и ИИ-стартапами. Претензии состоят в том, что для обучения своих нейронок Suno и Udio берут оригинальные треки, авторы и исполнители которых не получают никаких отчислений.
В будущем, думаю, мы придем к тому, что музыкантам будут отчисляться роялти — возможно, 50 на 50 — за использование их голосов.
Кроме того, рутинные студийные процессы перейдут на нейронки. Я бы на месте лейблов уже внедрял этот инструментарий для облегчения работы.
FL: Ты участвовал в общественных проектах по восстановлению голосов знаменитости прошлых эпох. Как происходил этот процесс?
Андрей: Я помогал ребятам из Узбекистана в восстановлении золотых голосов республики — различных дикторов и певцов. Проект осуществлялся при государственной поддержке. Брались записи из национальных архивов, на их основе я создавал голосовые модели и улучшал качество звучания.
Сейчас я также принимаю участие в восстановлении голоса Сергея Есенина, которому в России посвящен 2025 год. При жизни у него была всего одна более-менее качественная аудиозапись, на которой он около четырех минут читает свое стихотворение. И несмотря на то, что от голоса осталось только напоминание, я все-таки попытался вытянуть его и создать на основе этого голосовую модель. Осенью этот проект будет представлен.
FL: Видишь ли ты этические проблемы в использовании голоса умерших исполнителей?
Андрей: Я против того, чтобы при создании нейропесен были перегибы в использовании исходного материала. В своем творчестве я стараюсь подходить к почившим музыкантам с уважением. Мои песни с большей степени — переосмысление.
FL: В РФ предложили охранять голос гражданина как объект нематериальных прав. Должна ли регулироваться эта сфера и как именно?
Андрей: К этому неизбежно придет. Российский законопроект направлен в большей степени на борьбу с использованием голоса человека в мошеннических целях. В этом контексте это очень правильное предложение.
Я разговорными моделями не занимаюсь вообще, я создаю пародийное творчество, с нуля пишу музыку и везде указываю на это.
Безусловно, к законодательству в этом направлении будут появляться поправки. Европа и США сейчас очень озабочены борьбой с дипфейками. Бардак не нужен ни в одной сфере.
Если это затронет мою деятельность и придется брать какие-либо разрешения, я все равно продолжу заниматься этим, хоть и с ограничениями.
FL: Ты следишь за какими-либо ИИ-токенами?
Андрей: Один из интересных проектов — io.net. Они предоставляют возможности облачных вычислений, что важно для нейросетей, когда у тебя, дома нет нормального оборудования. За токены ты покупаешь у них вычислительную мощность и используешь ее для обучения своих моделей.
Другой классный проект — ChainGPT. У них есть различные ИИ-агенты, которые помогают разбираться с криптой, проверяют смарт-контракты.
Уверен, что в дальнейшем будут выходить проекты подобные ElevenLabs со своими токенами, которыми можно будет оплатить услуги по обработке голосов или музыки. Очень круто, когда технологии и криптовалюты идут в симбиозе.
FL: Как ты относишься к идее токенизации в этой области?
Андрей: Отлично отношусь. У меня даже были идеи запустить своего Telegram-бота, который бы создавал музыку в Suno c оплатой в токенах.
Токенизацию в нейромузыке я считаю очень полезной, но пока нет масс адопшн, чтобы это происходило на серьезном уровне. Считаю, что подвижки в этом направлении произойдут в том числе благодаря Telegram.
FL: Искусственный интеллект уничтожит человечество?
Андрей: Думаю, нет. При правильном подходе, наоборот, дополнит.
Подписаться на подкаст:
Apple Podcasts
Spotify
YouTube
Deezer
Яндекс.Музыка
YouTube Music