VoxForge
Решил разобраться с kaldi
Начал выполнять инструкцию из https://github.com/grib0ed0v/kaldi-for-russian
При выполнении встретил кучу подводных камней с которыми я вроде разобрался.
В качестве "рецепта"используется github.com/freerussianasr/recipes
Дошел до пункта
cd egs/recipes/voxforge_ru
Add to path.sh the following line:
source $KALDI_ROOT/tools/env.sh
./run.sh
В одном из подэтапов этапов тут используется Sequitur.
Модели для русского языка там нет, в интернетах я такую не нашел. Нашел для другой утилиты Phonetisaurus. В этом моменте заменил Sequitur на Phonetisaurus. Проблема была в пункте --- Preparing pronunciations for OOV words ...
Сейчас на этом этапе все нормально.
На самом последнем этапе при запуске run_dnn.sh вывалилась ошибка по CUDA. Ее я разрулил поправив параметр skip_cuda_check на true.
pretrained базу из архива решил не использовать. После окончания работы как это все можно будет использовать ?
Для меня сейчас вообще не ясно как потом работать со всех этим добром. Чтобы распознать например содержимое тестового wav файла, что надо использовать ?
Это была проверка связи.
hpkit, привет.
Для того, чтобы потом использовать результаты обучения, тебе необходимо использовать обученные модели и написать свой собственный скрипт для распознавания.
Для sequiture моделей действительно нет, но их можно получить, обучив на словаре cmusphinx.
Модель для phonetisaurus, на мой взгляд работает неверно. Удалось ли тебе получить какие-либо результаты на этой модели, в частности на OOV словах. Можешь показать результаты?
Сейчас рекомендую попробовать Vosk - модель для русского.
Github:
https://github.com/alphacep/vosk-api
Модели тут:
https://alphacephei.com/vosk/models
Нужно скачать vosk-model-ru-0.10. Также можно попробовать vosk-server.