VoxForge
Привет всем, первый раз столкнулся с распознаванием. Задача стоит такая: из wav-файла с озвученым номером получить текстовичек с цифрами.
Я собрал sphinxbase-5prealpha и pocketsphinx-5prealpha и скачал модель zero_ru_cont_8k_v3. Создал argfile с парамерами(где все пути к распакованому рус. архиву) -hmm, -lm, -dict, cepdir, -ctl, -cepext, -adcin(true), -hyp, -samlerate.
В итоге пробный файл был распознан удовлетворительно, но заняло это более 5 минут. Много времени заняли Reading bigrams/trigrams и ngram_search.c(fwdflat.c). Попробовал распознать английский по дефолту - все быстро и никаких Reading bigrams/trigrams не делалось.
Как ускорить процесс для текущей задачи? Нужны только цифры и я пробовал удалить лишнее из текстовиков, но бинарники не поредактируешь.
Очень прошу помочь.
Спасибо за ответ) Написал, но не допилил так как параллельно сделал свою языковую модель. Модель справляется на отлично! и все же подгрузка акустической модели занимает 10-20 секунд. Можно ли как-то ускорить? всегда держать подгруженной?..
> и все же подгрузка акустической модели занимает 10-20 секунд.
Это на каком-то слабом процессоре видимо. Модель PTM должна быстрее загрузжаться. И работать быстрее.
> Можно ли как-то ускорить? всегда держать подгруженной?..
спасибо) хорошо бы теперь узнать как это сделать. я пока только нашел пару скриптов на гитхабе, но хотелось бы использовать ресурсы программы.
Чтобы узнать что-то новое можно просто спросить.