Головна фішка VALL-E — копіювання голосу людини. Щоб навчитися копіювати голос, нейромережі потрібно його запис тривалістю всього три секунди.
Крім збереження вокального тембру та емоцій, VALL-E може імітувати «акустичне оточення» — наприклад, ніби мова звучить як при телефонному дзвінку.
Технологія заснована на алгоритмі EnCodec і навчена на 60 000 годинах англомовної мови від більш ніж 7000 носіїв.
На спеціальному сайті Microsoft надає кілька десятків прикладів роботи VALL-E. У колонці Speaker Prompt представлено оригінальний трисекундний запис голосу, у колонці Ground Truth — повне прочитання заданої фрази для порівняння. Колонка Baseline показує результат роботи стандартної технології синтезу промови. Зрештою, у колонці VALL-E представлено результат роботи нової технології Microsoft.
Дослідники уточнюють, що розуміють ризики технології — зловмисники можуть скористатися нею, щоб видати себе за іншу людину. Тому фахівці пропонують створити алгоритм, який визначає, що аудіозапис створено за допомогою VALL-E.
Проте цю нейромережу можна використовувати в кіно, наприклад, для озвучення акторів, яких немає в живих. Також можна «воскресати» голоси виконавців, щоби випускати нові пісні за їх участю. Ще VALL-E став би чудовим інструментом для дикторів та тих, хто озвучує аудіокниги.
Microsoft не випустила нейромережу у відкритий доступ. Зараз це напрацювання залишається всередині компанії. Компанія не уточнила, як її використовуватимуть надалі. Також неясно, навіщо взагалі було створювати цей AI-алгоритм. Поки що VALL-E працює тільки з англійською мовою.
Джерело: Microsoft