„Du sprichst. Es antwortet. Aber niemand ist da.“: fonio.ai und die neue Stille am anderen Ende der Leitung

Das Wiener Start-up fonio.ai bringt Künstliche Intelligenz am Telefon zum Sprechen – etwa im Kundenservice, bei Hotlines oder in der Terminvereinbarung. SUMO hat mit einem der Gründer, Daniel Keinrath, gesprochen. Medienethiker und Forscher an der FH St. Pölten Michael Litschka fragt sich dabei: Nur weil es funktioniert – ist es auch richtig?

TEXT: KATRIN WALLNER  | FOTO: KATRIN WALLNER

Die Stimme klingt freundlich, souverän, professionell. Man könnte meinen, am anderen Ende der Leitung sitzt eine Callcenter-Mitarbeiterin, vielleicht Anfang dreißig, gut geschult und aufmerksam. Doch sie ist nicht echt. Sie ist ein Produkt. Entwickelt wurde sie vom Wiener Start-up fonio.ai. Ihr Kopf: Daniel Keinrath & Matthias Gruber. Ihr Ziel: sprechende KI für den Kundendialog. Doch was bedeutet das – für Kommunikation, Vertrauen, Verantwortung? Und was müssen wir darüber wissen?

Hallo! Hier ist Sophie von fonio, mit wem sprech‘ ich?

So klingt sie. Sophie, die künstliche Stimme am Telefon, klingt nicht nur wie ein Mensch – sie spricht auch wie einer. Reagiert. Fragt nach. Legt Pausen ein. Keine blecherne Stimme, kein „Bitte drücken Sie die 1“. Stattdessen: Dialog auf Augenhöhe. Oder zumindest so, als wäre er es. Was dahintersteckt, ist ein komplexes Zusammenspiel aus KI, Sprachmodellen, Text-to-Speech-Systemen und einem feinen Ohr für Intonation. Die Zielgruppe: Unternehmen, die Kundenservice automatisieren wollen, ohne dass es sich wie Automation anfühlt.

Sophie ist ein Beispiel für das, was fonio.ai kann: Gespräche führen, Anliegen klären, Termine buchen – alles automatisch, alles sprachbasiert.

Daniel Keinrath, CEO von fonio.ai, sieht in der Stimme eine neue Schnittstelle: „Die Stimme ist der direkteste Zugang zum Menschen. Wenn man sie richtig einsetzt, kann man Vertrauen aufbauen – auch ohne echten Menschen.“

Sie soll entlasten. Doch sie wirft auch Fragen auf.

Merken wir, dass wir mit einer Maschine sprechen? Wer entscheidet, ob wir es merken sollen? Und was passiert mit den Daten, die dabei entstehen?

Neugier und Unternehmergeist

Daniel Keinrath startete schon in der Schule erste Projekte, gründete ein Start-up im Influencer-Marketing, verkaufte es und verbrachte später einige Zeit in San Francisco, wo er den Aufstieg von Voice-AI hautnah miterlebte. Dort wurde ihm klar: „Da entsteht gerade etwas Großes, was man in Europa noch nicht auf dem Schirm hat“, so Keinrath.

Was ihn antreibt, ist mehr als technische Neugier: „Ich will Produkte bauen, die die Welt verändern.“ Und das meint er nicht esoterisch – sondern wirtschaftlich.

fonio.ai ist eines dieser Produkte. Das Unternehmen wurde Mitte 2024 gemeinsam mit Matthias Gruber gegründet und hat sich rasch in der österreichischen Start-up-Szene etabliert. Der Fokus liegt auf deutschsprachigen Märkten, doch die Vision ist global: vollautomatisierte, gesprochene Kommunikation zwischen Mensch und Maschine. In Kundencentern. In Banken. Im Gesundheitswesen.

„In vielen Bereichen ist uns das relativ wurscht.“

Unternehmen können bei fonio.ai nicht nur entscheiden, was die KI sagt – sondern auch, wie. Persönlichkeit, Tonfall, sogar Humor: alles ist konfigurierbar. Wie stellt man sicher, dass das nicht schiefläuft? „Ganz ehrlich: In vielen Bereichen ist uns das relativ wurscht“, sagt Keinrath. „Unsere Kund*innen wissen selbst am besten, wie sie unsere Technologie nutzen wollen.“ Aber es gibt Grenzen. Politische Aussagen, Beleidigungen, diskriminierende Inhalte: alles ausgeschlossen – technisch über das Sprachmodell geregelt. „Wir setzen auf eine Mischung aus Vertrauen, Verantwortung und Technik.“ Kontrolle? „Üben wir nicht aus.“ „Die Leute wollen eine schnelle Lösung. Ob die von einem Menschen kommt oder von einer KI, ist ihnen meistens egal.“

Technik, Verantwortung – und eine offene Frage

Michael Litschka, Medienethiker an der FH St. Pölten, sieht darin ein bekanntes Muster: „Früher waren es die großen Plattformen, heute sind es KI-Anbieter – alle sagen, sie liefern nur die Technik, die Verantwortung liege bei den Nutzer*innen.“ Doch mit dem Vormarsch von Künstlicher Intelligenz greift diese Haltung zu kurz, meint er.

Der AI Act, der mit 2. August 2024 in Kraft trat, sei ein Schritt in die richtige Richtung, aber auch jenseits gesetzlicher Vorgaben müssten Unternehmen Verantwortung übernehmen.„Nur weil kein Gesetz verletzt wird, heißt das nicht, dass alles in Ordnung ist.“

Gerade weil die Technologie immer besser werde, sei ein bewusster Umgang damit entscheidend. Der AI Act ist ein erster Schritt – doch auch jenseits der Gesetzeslage brauche es klare Regeln. Denn, so Litschka: „Vertrauen entsteht nicht durch Täuschung, sondern durch Transparenz.“ Was er fordert, nennt er „doppelte Transparenz“: Erstens muss klar sein, dass es sich um KI handelt. Zweitens: Wie sie funktioniert.

Moral – made by Machine?

fonio.ai bietet mittlerweile auch österreichische Stimmen an – mit Dialekt, Nuancen, Vertrautheit. Ist das schon eine Täuschung?

„Ich finde: ja“, betont Litschka. „Wenn eine Stimme so klingt, dass man denkt, da sitzt jemand aus der Region – aber es ist KI und es wird nicht gesagt – dann ist das Täuschung. Punkt.“ Technisch faszinierend? Ja. Aber ethisch problematisch. Denn: „Wenn Menschen im Nachhinein erfahren, dass sie mit einer Maschine gesprochen haben, entsteht ein ungutes Gefühl.“ Kann KI jemals ethisch handeln? Litschka winkt ab. „Nein. Weil sie nicht abwägen kann. Nicht reflektieren. Nicht Verantwortung übernehmen.“

Eine KI kann erklären, wie sie zu einem Ergebnis kam – aber sie kann sich nicht rechtfertigen. Kein Unrechtsbewusstsein, kein Mitgefühl, keine Autonomie. „Ethische Entscheidungen bleiben menschlich – mit all ihren Fehlern.“

Was sollen wir wissen?

Die Frage dieser SUMO-Ausgabe bekommt an dieser Stelle Gewicht. Denn bei sprechender KI geht es nicht nur um Technik. Es geht um Kommunikation – und damit um eines der menschlichsten Dinge überhaupt. Wenn Stimmen maschinell erzeugt werden, aber bewusst menschlich klingen, stellt sich nicht nur die Frage nach Effizienz. Sondern auch nach Ethik.

Was sollen wir also wissen?

Wir sollten wissen, dass es KI-Anwendungen wie fonio.ai gibt – und dass sie täuschend echt klingen können. Wir sollten wissen, wann wir mit einer KI sprechen – und warum. Wir sollten wissen, wie solche Systeme funktionieren – auch wenn wir keine Expert*innen sind. Und wir sollten diskutieren, ob wir das überhaupt wollen – und unter welchen Bedingungen. Denn Wissen ist Macht. Und Macht braucht Verantwortung.

Wenn niemand mehr zuhört

Vielleicht ist es tatsächlich egal, ob am anderen Ende der Leitung ein Mensch sitzt oder eine Maschine. Solange das Anliegen gelöst wird, die Stimme nett klingt und das Gespräch gut verläuft. Vielleicht ist es egal. Vielleicht beginnt hier eine neue Art von Kommunikation – mit unklaren Rollen. Vielleicht verändert sich an diesem Punkt, was wir unter Gespräch verstehen. Denn wenn wir nicht mehr wissen, mit wem wir sprechen, dann sprechen wir irgendwann nur noch mit uns selbst. Und wenn niemand mehr zuhört – wer antwortet dann?

Fonio.ai zeigt, was technisch möglich ist. Doch die Gespräche mit Daniel Keinrath und Michael Litschka machen klar: Kommunikation ist mehr als Verständigung. Sie braucht Bewusstsein. Und Verantwortung. Nur wenn wir wissen, mit wem wir sprechen – und warum – kann KI ein Gesprächspartner sein. Und nicht bloß: eine gut geölte Tonspur.

KATRIN WALLNER

Daniel Keinrath | Copyright:Kurt Keinrath
Michael Litschka | Copyright: Privat