VoxForge
Здравствуйте. Пытаюсь реализовать алгоритм поиска ключевых слов на основании фонем. Точность распознавания фонем составляет порядка 60% (обучение акустических моделей производилось средствами HTK). Слова, требуемые для поиска, вводятся с клавиатуры и конвертируются в набор фонем. Основная проблема состоит в большом количестве ложных срабатываний. Возможно каким-либо образом решить эту проблему, не прибегая к лингвистическим моделям и достаточно ли такое качество распознавания? Если есть литература по этому вопросу, буду рад)
Спасибо!
60% точность - в порядке вещей, если постраться, можно довести до 70%. Лучшие алгоритмы вроде DNN дают 80%.
Способов улучшить качество поиска много, зависит от текущей реализации. Простейший - увеличить длину слова для поиска. Более сложные используют матрицы спутывания фонем и меры уверенности, не думаю, что у Вас это реализовано.
Прочитать об алгоритме можно здесь
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.261.626
О последних достижениях можно прочитать тут: