Russian

Nested
Sequitur G2P
User: eramart
Date: 2/24/2011 11:23 am
Views: 9078
Rating: 18

Вопрос ко всем, кто имел дело с этим замечательным продуктом. Можно ли указать при обучении, что русский язык в словаре идет в кодировке Utf-8, используя таким образом по два символа для буквы? Возможно, макрос MULTIGRAM_SIZE, задающийся при компиляции, имеет какое-то отношение к количеству символов в букве?

Re: Sequitur G2P
User: nsh
Date: 2/24/2011 12:04 pm
Views: 182
Rating: 15

> Можно ли указать при обучении, что русский язык в словаре идет в кодировке Utf-8, используя таким образом по два символа для буквы?

Чтобы указать кодировку в g2p.py нужно использовать параметр encoding:
        '-e', '--encoding', default='ISO-8859-15',
        help='use character set encoding ENC', metavar='ENC')
Соответственно, нужно указать utf-8

> Возможно, макрос MULTIGRAM_SIZE, задающийся при компиляции, имеет какое-то отношение к количеству символов в букве?

Не имеет

 

 

Re: Sequitur G2P
User: eramart
Date: 2/24/2011 12:11 pm
Views: 206
Rating: 16

Спасибо! А за что отвечает MULTIGRAM_SIZE?

Re: Sequitur G2P
User: nsh
Date: 2/24/2011 12:13 pm
Views: 194
Rating: 12

Число байт, используемых для хранения единицы данных во внутреннем представлении модели.

Re: Sequitur G2P
User: eramart
Date: 2/24/2011 12:54 pm
Views: 3605
Rating: 13

Спасибо, Николай!

PreviousNext