По заявлению представителей компании Microsoft, ее технология распознавания голоса достигла невероятных высот.
Доля ошибок системы составляет всего 5.1%, в то время как аналогичный человеческий показатель составляет порядка 5% – 6%. Прежде технология распознавания голоса Microsoft Research демонстрировала показатель 6.3%.
В своих разработках специалисты Microsoft использовали сочетание сверточной нейронной сети (CNN) и модели долгой краткосрочной памяти (LSTM), а также ряд подходов, которые и ранее применялись в машинном распознавании речи.
Результаты проверялись при помощи теста Switchboard, который обычно используется для проверки работы машинного распознавания английской речи.
Источник: ferra