VoxForge
Hi there,
I´m a trainee at the Daimler AG and my job is to convert an audiofile into a text. The language is german.I´ve installed pocketsphinx on windows. My problem is to add a new word to the actual voxfoge model "voxforge-de-0.1". For an english model i tested lmtool and it works great. But for the german language it doesn´t work. It recognize not one word.
How can I add a new word and train it for the German Voxforge model?
Please help me
> Um ein neues Wort hinzuzufügen brauchst du zuerst ein Audiofile, welches einen Satz mit dem Wort enthält. Am besten von mehreren Sprechern. Theoretische würde ein Audiofile mit nur dem Wort reichen um dir eine Chance auf eine Erkennung zu geben. Ist allerdings nicht sehr robust.
Das ist Falsch.
Erstmal vielen Dank für die schnelle Antwort.
Ist es nicht möglich die .lm-Datei von lmtool zu verwenden da diese ja nur von den Sätzen abhängig ist die ich mitliefere. Also ist es ja sprachenunabhängig.
Und wenn ich bei der .dic-Datei die Phoneme mit den deutschen Phonem ersetze die ich von Sequitur G2P bekomme müsste doch auch diese Lösung zielführend sein.
Liege ich hier falsch?
Benutzer nsh hat kommentiert das deine Aussage zwischen Zeile 5 und 10 falsch ist?
Könntest du mir vielleicht die wichtigsten Schritte von Sphinxtrain näher erläutern. (bitte)
Ist es besser ich trainiere das model (http://cmusphinx.sourceforge.net/wiki/tutorialam) oder ich erweitere es (http://cmusphinx.sourceforge.net/wiki/tutorialadapt). Sind diese Lösungen mit dem model von Voxforge kompatibel?Vielen dank nochmal für deine Hilfe.Da kann ich dich eigentlich nur auf die Checkliste verweisen, die auf derselben Seite steht.
http://cmusphinx.sourceforge.net/wiki/tutorialam
Wenn man nur die Genauigkeit erhöhen will, oder zu wenig Trainingsdaten hat, oder nicht genug Zeit oder Erfahrung sollte man eine Adaption ausführen.
Das mit dem LM Tool wäre möglich. Allerdings habe ich das CMU Cambridge Tool v2 verwendet. Daher kann dazu momentan nicht wirklich etwas sagen. Die Schritte für einen Trainingslauf mit Sphinxtrain stehen eigentlich auch genau auf der Seite. (tutorialam) Da bist du also schon goldrichtig.Bevor ich aber näheres dazu sage , warten wir mal ab, was nsh dazu sagt, was "falsch" ist. Schließlich würde ich hier ungern Unsinn verbreiten.
Wegen den Phonemen könntest du auch diese Webseite verwenden
http://korpling.german.hu-berlin.de/~amir/phon.php
Ist ungefähr dasselbe nur für deutsch.
My apologies. I remember, you are Nickolay.
If you mark something as "wrong" maybe you shouldn't mark two points.
Binh
I marked two points as wrong because they both are wrong. You definitely do not need to have a word in training set in order to recognize it.
Yes. As I mentioned further down in my thread in theorie it is enough, if the necessary phonem of the new word are covered by words already present but we talking about the german acoustic model here which is very small. So it is always better to add the word to the training set if you want it to be recognized.
The other point refers to the work of Ralf I found on spirit blue. He tried to build a speech recognition by adding flacs with only 1 word to the training set. And with some sucess I may add. Given. He uses Simon but since Simon uses HTK or Sphinxtrain in the background I think it may be possible.
So if you have any more facts or arguments to contradict this two points your welcome to share. Otherwise I just assume you didn't read the whole thread.( I admit many spelling and sentence errors)
So let's continue
Nun gut. Wenn Nickolay nicht etwas anderes meinte, nehme ich jetzt mal an, das er einfach nicht alles gelesen hat. Falls er etwas anderes meinte, kann er sich gerne hier einmischen. Ich lerne gerne etwas dazu.
Zurück zu deinem Fall. Vielleicht sollten wir noch einmal zurück treten und uns überlegen ob Sphinx wirklich das richtige an dieser Stelle ist.
Zunächst must du dir überlegen wieviel Zeit du hast um den Transcriber zu schreiben. Wenn es unter 1 Monat ist und du nicht auf Sphinx( Als Aufgabenstellung) angewiesen bist, dann würde ich dir vielleicht Google Voice Api nahe legen. Man zerlegt die Audio Datei dabei und schickt sie an Google, welche dann eine Erkennung zurückschickt. Es ist deutlich einfacher, auch wenn man hier allerdings nicht die Möglichkeit hat irgendetwas zu tunen.
Als nächstes must du die überlegen was auf der Audiodatei genau drauf ist. Wie du vermutlich bereites gelesen hast, ist es deutlich einfach eine beschränkte Reihe von Befehlen zu erkennen wie: "Gehe rechts, Gehe links, Wähle 662" als fließenden gesprochenen Text.