Microsoft навчила нейромережі підробляти голос за 3 секунди

10 січня 2023, 20:08 | Roter [576]

Група дослідників із Microsoft презентувала нову модель для синтезу мови на основі нейромережевих алгоритмів. Вона отримала назву VALL-E.

Microsoft навчила нейромережі підробляти голос за 3 секунди

Головна фішка VALL-E — копіювання голосу людини. Щоб навчитися копіювати голос, нейромережі потрібно його запис тривалістю всього три секунди.

Крім збереження вокального тембру та емоцій, VALL-E може імітувати «акустичне оточення» — наприклад, ніби мова звучить як при телефонному дзвінку.

Технологія заснована на алгоритмі EnCodec і навчена на 60 000 годинах англомовної мови від більш ніж 7000 носіїв.

На спеціальному сайті Microsoft надає кілька десятків прикладів роботи VALL-E. У колонці Speaker Prompt представлено оригінальний трисекундний запис голосу, у колонці Ground Truth — повне прочитання заданої фрази для порівняння. Колонка Baseline показує результат роботи стандартної технології синтезу промови. Зрештою, у колонці VALL-E представлено результат роботи нової технології Microsoft.

Дослідники уточнюють, що розуміють ризики технології — зловмисники можуть скористатися нею, щоб видати себе за іншу людину. Тому фахівці пропонують створити алгоритм, який визначає, що аудіозапис створено за допомогою VALL-E.

Проте цю нейромережу можна використовувати в кіно, наприклад, для озвучення акторів, яких немає в живих. Також можна «воскресати» голоси виконавців, щоби випускати нові пісні за їх участю. Ще VALL-E став би чудовим інструментом для дикторів та тих, хто озвучує аудіокниги.

Microsoft не випустила нейромережу у відкритий доступ. Зараз це напрацювання залишається всередині компанії. Компанія не уточнила, як її використовуватимуть надалі. Також неясно, навіщо взагалі було створювати цей AI-алгоритм. Поки що VALL-E працює тільки з англійською мовою.

Джерело: Microsoft

Теги: Microsoft