German

Flat
Erkennen von Wörtern ohne Spracheingabe bei Grammtiken
User: rene.schumann
Date: 8/13/2016 4:27 pm
Views: 6683
Rating: 0

Hallo,

ich versuche zur Zeit ein kleines Android Programm unter Xamarin zu entwickeln. Dabei sollen einfache Zahlen von Null bis Neun erkannt werden. Dazu verwende ich das Language Modell, welches von VoxForge erstellt wurde.

Mein Problem dabei ist, dass er auch Wörter aus der Grammatik erkennt ohne das ich eine Spracheingabe mache oder irgendwelche Geräsche im Hintergrund zu hören sind. Vielleicht kennt ja jemand von euch das Problem und kann mir weiterhelfen. Für die Erkennung habe ich das Android Beispiel von CMUSphinx leicht abgewandelt.

Vielen Dank im Voraus.

Gruß

Rene

Re: Erkennen von Wörtern ohne Spracheingabe bei Grammtiken
User: Binh
Date: 8/15/2016 2:34 am
Views: 2966
Rating: 0

Hallo Rene,

willkommen bei Voxforge. Zunächst ein bißchen zur Begrifflichkeit. Ich denke Du meinst Akkustisches Modell. Es gibt bei der Spracherkennung 3 Komponenten:

Dictionary:

Eine Liste mit Wörtern und ihrer Phonemschrift.

Accustic Model:

Die akkustische Teil der Spracherkennung, wo man die Phoneme in Form von Audioaufnahme / Text eintrainiert hat.

Language Modell / Grammatik : 

Die logische Repräsentation der Sprache, die man abbildet. 

Kommen wir zum dritten Punkt. Grammatiken benutzt man wenn man einfache, nicht beliebige Eingaben erwartet. In deinem Fall solltest du also eine Grammatik und kein Language Modell benutzen. 

Zudem ist das akkustische Modell von Voxforge für eine reine Zahlenerkennung eher ungeeignet. Da ist einfach viel mehr "unnötiges" Material eintrainiert. Du must bedenken das dies eine statische Trainingsmethode ist. Das bedeutet, das was du erkennen willst, must dem Trainingsmaterial ähnllich sein. Du kannst also entweder dein eigenes akkustisches Modell trainieren oder du kannst mal nach den Modellen anderer Leute suchen, die eine reine Zahlenerkennung gemacht haben. 

Das Wörterbuch hängt vom akkustischen Modell ab. Hier must du dasselbe Wörterbuch benutzen, das zum Training des akkustischen Modells benutzt wurde. 

Als letztes kommen wir zur eigentlich Spracherkennung. Hier hast du die Auswahl zwischen CmuSphinx und PocketSphinx. Personell finde ich PocketSphinx wesentlich effektiver, aber das muss jeder für sich entscheiden. Ich bin mir nicht mehr ganz sicher, aber du müßtest bei beiden Cut-Off Werte festlegen können. Das bedeutet, wenn die "Konfidenz" das die Erkennung richtig ist, einen gewissen Wert unterschreitet, wird die Erkennung verworfen. 

Ich hoffe ich konnte dich in die richtige Richtung bringen. 

Gruss 

Van Binh Nguyen

PreviousNext