Re: test result - voxforge.org

Russian

Найденные ошибки

User: zamir
Date: 10/26/2010 8:39 am

Views: 11355
Rating: 12

1) в файле описания указано название файла *ira_ru0* но таких файлов не существует. Необходимо заменить на ira_ru0 на ira_ru_0

2) из файла описания необходимо убрать следующие имена файлов:

ego-20100205-one/wav/ru_0012

ego-20100205-one/wav/ru_0013

ego-20100205-one/wav/ru_0014

ego-20100205-one/wav/ru_0015

ego-20100205-one/wav/ru_0016

ego-20100205-one/wav/ru_0017

так как этих файлов не существует

3) в описании "пофранцузски" заменить на "по-французски"

"чтото" на "что-то"

4) в словаре посторяются некторые слова и есть знак "+"

Ещё не удалось собрать РАБОЧУЮ голосовую модель используя выложенный sphinx_train.cfg

програма предложила использовать следующие параметры

CFG_FEATURE = "1s_12c_12d_3p_12dd"

CFG_STATESPERHMM = 5

после этого модель собралась но не работает

ошибка такая:

FATAL_ERROR: "fe_sigproc.c", line 397: WTF, 4218.750000 < -15.625000 > 4765.625000

возможно из-за того что rate не указал в файле feat.params, разбираюсь...

ещё вопрос: Если я добавляю ещё голосовые файлы, то всю процедуру надо повторить или есть возможность "доучить"?

Re:

User: zamir
Date: 10/27/2010 9:48 am

Views: 198
Rating: 10

дело оказалось в sample rate

shinx train форсирует использование sample rate 16000

используя текущую базу записей получается голосовая модель лучшего качества на мой взгляд

Re:

User: Andrey
Date: 10/27/2010 10:29 am

Views: 178
Rating: 13

zamir, а вы используете модель с пакетом sphinx?

Я попробовал модель в программе pocketsphinx 0.6.1, но программа выдает исключительно (null). С любыми английскими языками все в порядке. В чем может быть дело?

Re:

User: zamir
Date: 10/27/2010 12:05 pm

Views: 169
Rating: 11

я использовал программу с пакетом unimrcp которая использует библиотеки pocketshinx 0.6.1

что касаемо вашего эксперимента думаю проблема в лангвистической модели. в ней чего-то не хватает

я поднимал эту проблему здесь:

http://www.voxforge.org/home/forums/other-languages/russian/----4

для тесрирования вам видимо придётся установить shinx3 и кодировку koi8-r

либо попробовать подсунуть собственную мини модель языка (grammar словарь) для pocketshinx (unimrcp так и делает)

вот его пример, на котором я как раз тестировал (кодировку только одинаковую установите для словарей)

содержание файла cmudict.jsgf:

Re:

User: zamir
Date: 10/27/2010 12:09 pm

Views: 231
Rating: 11

вот на всякий случай мини-словарь для этой grammar модели

да d aa
нет nn ee t
остроухов a s t r a uu h ay v
остроухова a s t r a uu h ay v a
замир z ay mm i r
лариса l a rr ii s a
номер n oo mm ae r
один a dd ii n
первую pp ee r v ur j u
первой pp ee r v ay j
два d v aa
вторую f t a r uu j u
второй f t a r oo j
три t rr ii
третью t rr ee tt j u
третьей t rr ee tt j ae j
четыре ch i t yy rr e
четвертую ch ae t vv i r t uu j u
четвертой ch i t vv ee r t ay j
пять pp aa tt
пятую pp aa t ur j u
пятой pp i t oo j
шесть sh ee s tt
шестую sh y s t uu j u
шестой sh y s t oo j
семь ss ee mm
седьмую ss i dd m uu j u
седьмой ss i dd m oo j
восемь v oo ss ae mm
восьмую v a ss m uu j u
восьмой v a ss m oo j
девять dd ee vv ae tt
девятую dd i vv aa t ur j u
девятой dd i vv aa t ay j
десять dd ee ss ae tt
десятую dd i ss aa t ur j u
десятой dd i ss aa t ay j
включить f k ll ur ch ae tt
выключить v yy k ll ur ch ae tt
подключить p a t k ll ur ch ae tt
отключить a t k ll ur ch ae tt
опросить a p r a ss ii tt
состояние s ay s t a j aa nn ae j e
статус s t aa t ur s
всех f ss ee h
камер k aa mm ae r
каждой k aa zh d ay j
камеру k aa mm ae r u
камеры k aa mm ae r y
видео-камеру vv ii dd e oo k aa mm ae r u
видео-камеры vv ii dd e oo k aa mm ae r y

Re: Найденные ошибки

User: nsh
Date: 10/27/2010 5:17 pm

Views: 221
Rating: 13

> 1) 2) 3)

Спасибо, исправили

> 4)

Это не ошибка

> Ещё не удалось собрать РАБОЧУЮ голосовую модель используя выложенный sphinx_train.cfg

С этим я смотрю Вы и сами в состоянии справиться. Главное, больше оптимизма в деле проявлять.

Re: autofix

User: zamir
Date: 10/28/2010 3:32 am

Views: 235
Rating: 13

Это Вам Спасибо ;)

в словаре есть "за+ногу", но нет "заногу"

в обучающих фразах:

i -> первая

зеленый -> зелёный

вот скрипт которым я исправляю положение:

#!/usr/bin/perl

use utf8;

my $name = 'msu_ru_zero';
my $infilename = 'ALLPROMPTS';
my $outfilename = $name.'_train.transcription';
my $idsfilename = $name.'_train.fileids';

open(IN, "<$infilename") or die ("need input file name");
open(OUT, ">$outfilename") or die ("need output file name");
open(IDS, ">$idsfilename") or die ("need output file name");

while (my $prompt = <IN>) {
    chomp $prompt;
    my ($file,$text) = split(/[\s]+/,$prompt,2);
    $file =~ s/ira_ru0/ira_ru_0/;
    $file =~ s/mfc/wav/;
    if ($file =~ /ego-20100205-one\/wav\/ru_0012/) { next; }
    if ($file =~ /ego-20100205-one\/wav\/ru_0013/) { next; }
    if ($file =~ /ego-20100205-one\/wav\/ru_0014/) { next; }
    if ($file =~ /ego-20100205-one\/wav\/ru_0015/) { next; }
    if ($file =~ /ego-20100205-one\/wav\/ru_0016/) { next; }
    if ($file =~ /ego-20100205-one\/wav\/ru_0017/) { next; }

    utf8::decode($text);
    $text =~ s/чтото/что-то/g;
    $text =~ s/пофранцузски/по-французски/g;
    $text =~ s/з\+аногу/заногу/g;
    $text =~ s/зеленый/зелёный/g;
    $text =~ s/ - / /g;
    $text =~ s/ i / первая /g;
    $text =~ s/[\,\.\?\!\;\:]/ /g;
    $text =~ s/[\s]+/ /g;
    $text = lc($text);
    utf8::encode($text);

    print IDS "$file\n";
    my ($dir1,$dir2,$filename) = split(/\//,$file,3);
    print OUT "<s> $text </s> ($filename)\n";
}

close(IN);
close(OUT);
close(IDS);

Re: test result

User: zamir
Date: 10/28/2010 6:40 am

Views: 280
Rating: 11

вот результат тестирования:

msu_ru_nsh.cd_cont_1000_8gau_8000:
INFO: pocketsphinx.c(805): wav/akaalxcoaakaInterocitor-20100322-dqk/wav/ru_0054: к в в он с у быть её в щёки мы у у в в закрытые или (-14444154)

msu_ru_zero.mllt_cd_cont_1000: (с включенным LDA)
INFO: pocketsphinx.c(805): wav/akaalxcoaakaInterocitor-20100322-dqk/wav/ru_0054: в он целует её щёки мы долго мы закрытые веки (-9100920)

msu_ru_zero.cd_cont_1000:
INFO: pocketsphinx.c(805): wav/akaalxcoaakaInterocitor-20100322-dqk/wav/ru_0054: в он целует её щёки мы под в закрытые веки (-10362792)

база слов была ограничена (~150 слов) при помощи grammar словаря

p.s. оригинальный текст:

Он целует её в щёки в лоб в закрытые веки

Я ещё вот чего думаю... если я говорил бы "в лоб", я бы может и сказал "l ay p", но если бы попросили продиктовать для распознавания речи, то использовал бы всё таки звук буквы "б"

Re: test result

User: nsh
Date: 10/29/2010 1:51 pm

Views: 199
Rating: 11

> вот результат тестирования:

Тестирование всегда делается на базе 100-200 предложений. Одно ни о чём не говорит. Кроме того, проверять надо на дикторе, не входящем в тренировочную базу

> Я ещё вот чего думаю... если я говорил бы "в лоб", я бы может и сказал "l ay p", но если бы попросили продиктовать для распознавания речи, то использовал бы всё таки звук буквы "б"

"в лоб в закрытые веки" тяжело сказать через б. Правильная транскрипция должна быть "l oo p", о с ударением.

Re: test result

User: Visitor
Date: 10/30/2010 2:20 am

Views: 3832
Rating: 14

я Вас понял, но всё-же на мой вгляд некую субъективную оценку голосовой модели можно получить и иным путём
например берём файл 2008 года
anonymous-20080731-chz/wav/ru_0006 (Глаза ленивые серо-карие и так же как у той женщины с искоркой)
который наверняка использовался для тренировки обеих голосовых моделей
делаем gramm модель примерно на 400 слов произносимых в любом порядке (которая также содержит слова из звукового файла ru_0006)
и тестируем распознавание различными голосовыми моделями

msu_ru_nsh.cd_cont_1000_8gau_8000
весьма долго напрягался pocketsphinx и выдал следующий результат
ru_0006: к в в был на ленивые сердце мой и так же как вот мы чем в над под той

msu_ru_zero.cd_cont_1000
по каким-то причинам гораздо быстрее произошло распознавание и выдался следующий результат
ru_0006: в глаза ленивые серо-карие сеть так же по тёплый женщины с искоркой

различия на мой взгляд всё-таки видны и можно делать некую оценку

я прослушал akaalxcoaakaInterocitor-20100322-dqk/wav/ru_0054.wav - мне показалось что там именно звук "б"

Previous • Next •


Username	Password