Meta створила генеративну модель Voicebox для перетворення тексту на мову

Розробники стверджують, що ця модель зробить для усного мовлення те саме, що ChatGPT та DALL-E зробили для тексту та зображень.
Аналогічно генеративним системам для тексту та зображень, Voicebox здатний створювати нові дані, змінювати стилі та модифікувати надані зразки. Для тренування системи було використано 50 000 годин записів мовлення та стенограм аудіокниг англійською, французькою, іспанською, німецькою, польською та португальською мовами. Ці матеріали перебувають у громадському надбанні.
Завдяки Voicebox можна редагувати аудіокліпи, видаляти шуми та виправляти неправильно вимовлені слова. Крім того, модель може відтворювати мову, ґрунтуючись на двосекундному фрагменті, переносити стиль мовлення між різними мовами та створювати різноманітні синтетичні набори даних.
Meta не публікує вихідний код моделі, посилаючись на потенційні ризики неправильного використання. У той же час, розробники відзначають безліч цікавих варіантів застосування генеративних мовних моделей.
Джерело: facebook
AI




