Die Wahl des Sprachverarbeitungsmodells entscheidet, mit welcher Software das Gesprochene des Anrufers zu Text verarbeitet wird. Hier gibt es einige technische Unterschiede, die zu beachtend sind.Aktuell bieten wir die folgenden Optionen zur Auswahl an:
Bei Azure Europa werden alle Daten auf europäischen Servern verarbeitet, diese Option ist also vollkommen DSGVO-konform. Der Nachteil hier ist, dass du mit einer etwas langsameren Reaktionszeit der KI rechnen musst (+700 ms)
Deepgram ist aktuell der Stand der Technik, wenn es um schnelle und präzise Verarbeitung von Sprache geht. Du solltest dieses Modell wählen, wenn es dir wichtig ist, eine besonders schnelle Reaktionszeit der KI zu erreichen.
Bei der Sprechgeschwindigkeit kannst du kontrollieren, wie schnell dein Assistent spricht. Je nach Anwendungsfall und Zielpublikum kann es sinnvoll sein, die Sprechgeschwindigkeit anzupassen. Wir empfehlen grundsätzlich eine Sprechgeschwindigkeit ungefähr in der Mitte der verfügbaren Bandbreite.
Die Sprechgeschwindigkeit reguliert lediglich das Tempo, mit dem die KI ihre Antworten ausspricht. Eine Verbesserung der Latenz lässt sich hier nicht erzielen.
Die Sensitivität legt fest, wie leicht sich die KI unterbrechen lässt. Hier lässt sich kontrollieren, wie sensiblen die KI auf Sprache, aber auch Geräusche reagiert. Je nach Anwendungsfall kann es Sinn machen, das in eine der beiden Richtungen abzuändern.
Wenn du weißt, dass viele deiner Anrufe in einer lauten Umgebung mit starken Störgeräuschen stattfinden werden (z.B. auf einer Baustelle), dann kann die Qualität deiner Anrufe deutlich steigen, wenn du die Sensitivität verringerst, sodass die KI sich weniger leicht auf eingehende Geräusche reagiert. Diese Dynamik funktionert in die andere Richtung genau so (z.B. bei Anrufern in gehobenem Alter, die typischerweise eher leise und in ruhiger Umgebung sprechen)