Spracherkennung in Echtzeit: die neuesten Features in SpeechLive im Interview

Es ist so weit – Philips SpeechLive ist um einige neue Sprache-zu-Text-Funktionalitäten reicher. SpeechLive bot bereits zahlreiche Möglichkeiten, Sprache in Text umzuwandeln, doch das Angebot wurde noch deutlich ausgedehnt. Heute sprechen wir mit Konstantin Thaa, dem Experten für Philips SpeechLive, der uns einen Überblick über die neuesten Entwicklungen geben wird.
Hallo Konstantin und danke, dass du dir die Zeit genommen hast, uns mitzuteilen was diese Neuerungen denn sind. Bevor wir aber ins Detail gehen, könntest du uns bitte erzählen was STT, also Sprache-zu-Text überhaupt ist?
Sehr gerne! Speech-To-Text, kurz STT, beschreibt die Funktion das Gesprochene mittels Spracherkennung sogar in Echtzeit zu verschriftlichen. Die Worte und Sätze, die von einem Mikrofon aufgenommen werden, können vom Programm erkannt und niedergeschrieben werden. Diese Funktionalität wird mittlerweile an vielen Stellen verwendet und erlaubt es dem Benutzer einfach und schnell Texte, Nachrichten und Ähnliches zu erstellen, ohne selbst tippen zu müssen.
-
Konstantin Thaa, Key Account Manager für SpeechLive und Experte für cloudbasierte Lösungen
Die Desktop App wurde jetzt komplett neu gelauncht. Kannst du uns ein bisschen über die wichtigsten Highlights erzählen?
Das primäre Ziel der Desktop App ist die eben erwähnte Speech-To-Text Funktion nun universell verwendbar zu machen. Üblicherweise sind solche Features innerhalb von Programmen in meist eng definierter Form erlaubt. Bei der Desktop App hingegen ist das unabhängig von dem jeweiligen Programm möglich. Wo auch immer man einen Cursor hinstellt, kann man nun dort das Gesprochene in Schrift verwandeln. Egal ob in E-Mail, Word, MS Teams, Salesforce oder anderen Programmen. Der Anwendungsbereich ist grenzenlos.
Darüber hinaus werden insgesamt 22 Sprachen unterstützt, wodurch man beispielsweise in einem Moment ein E-Mail auf Englisch einsprechen kann, und im nächsten bereits Notizen auf Deutsch verfasst. Auch hier war uns ein hohes Maß an Freiheit äußerst wichtig, denn wir wollten eine einfache und intuitive Lösung schaffen. Aus diesem Grund kann die STT-Funktion auch über alle Plattformen hinweg verwendet werden. Nicht nur am Desktop des PCs, sondern auch im Browser über speechlive.com sowie als nützliche Handy-App kann man Text diktieren. Dadurch ist man völlig ortsungebunden. Unkompliziert und synchronisiert.
Die Stimme schreibt am schnellsten.
Konstantin Thaa
SpeechLive ist eine cloudbasierte Lösung. Was waren eigentlich die Gründe hinter dieser Entscheidung?
In den letzten Jahren hat die Cloud-Technologie wegen ihrer Flexibilität und Vielseitigkeit immer mehr an Popularität gewonnen. Darauf basierende Lösungen wurden stetig besser und bieten nun deutliche Vorteile gegenüber den traditionellen On-Premise Versionen. Das Datenvolumen, welches man bräuchte, um unsere Desktop-App auf einer lokalen Software abzubilden, wäre schlicht zu groß und könnte auch nur schwer verbessert werden. Wir wollen unseren Kunden ewige Installations- und Updateprozesse ersparen, weswegen die Cloud eine optimale Lösung darstellt.
Das klingt super. Wenn man über die Cloud spricht, kommt aber oft die Frage zur Sicherheit. Ich stelle die Frage, die sich viele wahrscheinlich auch stellen würden: Ist es wirklich sicher?
Kurzum, ja. Die Antwort teilt sich in zwei Aspekte: Kontodaten und Dateninhalte. Der Goldstandard für Sicherheit bei Kontodaten ist die Multi-Faktor-Authentifizierung, welche zusätzlich zu einem Passwort auch einen zweiten Faktor – oftmals einen per E-Mail verschickten Einmalcode – verlangt. Für das Log-In verwendet SpeechLive eben diese MFA.
Darüber hinaus ist im Umgang mit Dateninhalten die Verschlüsselung von hoher Bedeutung. Aus diesem Grund werden alle Informationen, Diktate, Transkripte usw. verschlüsselt, wodurch sichergestellt wird, dass auch wirklich nur der ausgewählte Benutzer sie entschlüsseln und verwenden kann. Die Kombination aus diesen zwei Aspekten ermöglicht es uns Datensicherheit zu garantieren.
Ab jetzt gibt es auch ein STT-Paket. Wie funktioniert das überhaupt?
Das Rückgrat der STT-Funktion ist SpeechLive, unsere cloudbasierte Diktierlösung. Nachdem man bei SpeechLive.com ein Konto angelegt hat, kann man, wenn man das wünscht, auch STT dazunehmen. Es ist ein Flatrate-Paket mit Fair Use Policy, was bedeutet, dass man nach Lust und Laune diktieren kann, ohne Angst haben zu müssen ein Guthaben aufzubrauchen. Diese gesamte Funktionalität gemeinsam mit dem Workflow von SpeechLive kann man natürlich auch komplett kostenlos auf unserer Website testen! Am besten funktioniert die Spracherkennung übrigens mit professionellen Eingabegeräten, zum Beispiel aus der Philips Diktierhardware Familie.
Für wen wäre das deiner Meinung nach interessant? Wie können sie damit arbeiten?
Der Anwendungsbereich ist sehr groß, insbesondere dort wo historisch gesehen bereits viel diktiert wurde. Von Anwälten über Krankenpfleger bis hin zu Bauingenieuren gibt es einige Berufe in denen schnell und umfangreich Notizen gemacht und Nachrichten versandt werden müssen. Ob bei der Inspektion eines Bauobjekts oder bei Gesprächen mit Klienten. Informationserfassung und deren Austausch in immer komplexer werdenden Kollaborationen sind in einer modernen Welt unabdinglich. Aus eben diesem Grund bietet SpeechLive mit der STT-Funktion einen so breitgefächerten Workflow.
Wenn du SpeechLive in einem Satz beschreiben müsstest, wie würde er lauten?
Die Stimme schreibt am schnellsten.