
Цей ШІ здатний обробляти текстові запити для створення аудіо або модифікації вже існуючих музичних, голосових та звукових файлів. Міжнародна команда дослідників працювала над створенням цієї моделі, що зробило Fugatto особливо потужним у багатомовному та багатоакцентному контексті.
Модель може використовуватись у різних областях. Наприклад, музичні продюсери зможуть створювати чернові версії треків, які можна легко редагувати, змінюючи стилі, голоси або інструменти. Також Fugatto стане в нагоді у навчанні мов, дозволяючи користувачам вибирати голоси для створення аудіоматеріалів. Розробники відеоігор зможуть використовувати ШІ для створення динамічних звуків, які змінюються в залежності від ігрових ситуацій та дій гравців.
Крім того, модель демонструє здатність виконувати завдання, яким її не навчали безпосередньо, з мінімальним донастроюванням. Наприклад, Fugatto може комбінувати освоєні команди для створення сердитих голосів з певним акцентом або генерувати природні звуки, такі як спів птахів під час грози. Модель також здатна синтезувати звуки, які змінюються з плином часу, наприклад, звук дощу, що наближається.
Джерело: nvidia