mir kratzt immer öfter der Gedanke so etwas wie Jarvis zu bauen, dass auf eigene Befehle reagiert.
Nun habe ich recht oft und lange recherchiert und bemerkt, dass man gar nicht viele Möglichkeiten hat die Sprache zu Text umzuwandeln. Natürlich will ich etwas was schnell und offline funktioniert, aber da gibt es halt Bedenken.
Folgendes habe ich gefunden:
- online: Google
- online: Amazon
- online: api.ai
- online: wit.ai
- offline: Julius
- offline: Lucida
- offline: Sphinx
Gegen die online Varianten spricht eigentlich nur, dass die eine Internetverbindung brauchen.
- Google hat eine Begrenzung an Requests
- Amazon habe ich mich noch nicht genug eingelesen ob es mir überhaupt meine Sprache als Text zurück liefert
- api.ai, genauso wie Amazon
- wit.ai hat eigentlich keine Grenzen, aber dazu komme ich später noch
Gegen die offline Varianten spricht leider recht vieles. Keins der angegeben versteht die deutsche Sprache einigermassen. Und gut trainierte Bibliotheken habe ich bis jetzt nicht gefunden.
Theoretisch kann ich eine online Variante nehmen, jedoch müsste ich es irgendwie hinbekommen, dass es auf einen Namen hört, denn ein Knopf oder App ist doof. Wenn ich somit ALLES an z.B. wit.ai schicke, dann überschreite ich die "1 Request die Sekunde" Grenze. Somit müsste man dafür irgendwie mit einer offline Variante einen Namen erkennen lassen.
Viel Gerede, wenig Sinn ... habt ihr euch damit schon mal beschäftigt?
Wie würdet ihr so etwas umsetzen?
Kennt ihr gute offline STT die die deutsche Sprache verstehen?







