
Разработчики утверждают, что эта модель сделает для устной речи то же самое, что ChatGPT и DALL-E сделали для текста и изображений.
Аналогично генеративным системам для текста и изображений, Voicebox способен создавать новые данные, изменять стили и модифицировать предоставленные образцы. Для тренировки системы было использовано 50 000 часов записей речи и стенограмм аудиокниг на английском, французском, испанском, немецком, польском и португальском языках. Эти материалы находятся в общественном достоянии.
Благодаря Voicebox можно редактировать аудиоклипы, удалять шумы и исправлять неправильно произнесенные слова. Кроме того, модель может воспроизводить речь, основываясь на двухсекундном фрагменте, переносить стиль речи между различными языками и создавать разнообразные синтетические наборы данных.
Meta не публикует исходный код модели, ссылаясь на потенциальные риски неправильного использования. В то же время разработчики отмечают множество интересных вариантов применения генеративных речевых моделей.
Источник: facebook