Voicemod: Die Künstliche Intelligenz aus Valencia die alle fürchten

Von

30. April 2023

1640

Voicemod hat sich eine Nische in einem der furchterregendsten Aspekte der KI geschaffen: der Schaffung künstlicher Stimmen. Vorerst haben sie bereits Vereinbarungen mit Giganten wie Warner oder Tencent unterzeichnet.

Machen Sie einen Videoanruf mit Freunden und sprechen Sie mit der Stimme von Bugs Bunny. Spielen Sie eine Partie League of Leguends und der Rest hört nicht auf Sie, sondern auf einen Roboter, der dasselbe reproduziert, was Sie sagen. Und so mit all den Beispielen, die einem vielleicht in den Sinn kommen. Das ist der Vorschlag von Voicemod, einem valencianischen Startup, das kürzlich eine Runde von 14,5 Millionen Dollar abgeschlossen hat, zusätzlich zu Vereinbarungen mit Schwergewichten wie Tencent oder Warner. Das Flaggschiffprodukt ist ein Echtzeit-Sprachmodulator mit künstlicher Intelligenz, einem der Aspekte, der die größte Angst vor der Modetechnologie hervorgerufen hat, entweder durch Identitätsdiebstahl, Fehlinformationen oder auch durch den Verlust von Arbeitsplätzen.

“Wir geben den Nutzern die Möglichkeit, mit der Stimme gehört zu werden, die sie wollen”, fasst der Mitbegründer und CEO von Voicemod, Jaime Bosch. “Wir sind zur richtigen Zeit am richtigen Ort angekommen und haben die richtigen Entscheidungen getroffen, aber auch viel Belastbarkeit und ein bisschen Glück”, sagt er auf das Projekt, an dem 156 Menschen arbeiten und das im vergangenen Jahr einen Umsatz von 12,5 Millionen Euro hatte. Darüber hinaus wurde die Runde, die sie gerade aufgebracht haben, vom Leadwind-Fonds von Kfund angeführt und von The Mini Fund, einem Portfolio des Discord-Mitbegründers Eros Resmini, unterstützt.

Die ersten Schritte des Projekts gehen auf das Jahr 2009 zurück, als sich Bosch mit seinen Brüdern für digitale Sprachfilter interessierte, obwohl das Unternehmen erst 2014 unter dem heutigen Namen konsolidiert wurde. Anfangs konzentrierten sie sich auf mobile Anwendungen, wenn auch auf rudimentärere Weise, da es eine Weile dauerte, die Stimme in Echtzeit zu transformieren. “Wir haben nichts ausprobiert und sind dabei geblieben, wir haben viele Male umgeschwenkt”, betont Bosch.

Hinzu kommt, dass sie ihr Werkzeug gar nicht erst durch künstliche Intelligenz entwickelt haben, sondern durch einen digitalen Signalprozessor (DSP). “Im Grunde war es so, als würde man eine E-Gitarre mit Effektpedalen wie Distortion oder Echo ausstatten”, veranschaulicht der CEO von Voicemod, der den qualitativen Sprung beschreibt, den die Integration von KI bedeutete: “Mit dem DSP ist Ihre Stimme die Basis und wird modifiziert, aber es ist immer Ihre Stimme und sie wird sich je nach Person ändern. KI arbeitet mit einem Modell, in dem gesagt wird, wie die finale Stimme zu klingen hat. Es spielt keine Rolle, ob ich selbst oder jemand anderen spreche, es wird immer gleich klingen, weil sich das Timbre ändert, was jede Stimme einzigartig macht.”

Die Finanzierung geriet jedoch ins Stocken und sie standen 2017 kurz vor dem Abschluss. “Das Technologie-Investitionsmodell in Spanien konzentrierte sich zu dieser Zeit mehr auf Software as a Service oder E-Commerce, denn dort gab es große Erfolgsgeschichten”, räumt er ein. Zu diesem Zeitpunkt unternahmen sie ihren letzten Versuch, sich über Wasser zu halten, und starteten eine Computeranwendung, Voicemod for Desktop, die sie schließlich katapultierte. “Wir standen kurz vor der Schließung und sind nicht nur geflogen, sondern auch dort, wo wir jetzt sind. Ich hoffe, dass es so weitergeht”, sagt er und erinnert daran, dass sich seine Belegschaft seitdem verzehnfacht hat.

Tatsächlich war das, was sie veröffentlicht hatten, eine Beta, aber ihre Verwendung verbreitete sich, wie sie es bis dahin nicht gesehen hatten. Und dort identifizierten sie zum ersten Mal, was ihr wichtigstes Fischrevier werden sollte: Videospiele. “Ehrlich gesagt haben sich die Spieler für uns entschieden”, räumt Bosch ein und betont, dass der zeitliche Zufall entscheidend war. Die Software wurde einige Monate nach der Veröffentlichung von PUBG: Battlegrounds veröffentlicht, dem ersten großen Titel des Battle-Royale-Modus, bei dem sich mehrere Spieler gegenüberstehen, bis nur noch einer übrig ist, und in der Zwischenzeit ist es üblich, dass sie über einen Audio-Chat sprechen.

“Wir haben viele Leute gesehen, die uns nach einem Sprachmodulator für den PC gefragt haben. Wir waren überrascht, also haben wir sie gefragt und sie erklärten, dass sie wollten, dass es mit anderen Benutzern in diesem Spiel spricht”, fährt Bosch fort. Als ob das nicht genug wäre, kam der Ausstieg des Juwels in der Krone von Voicemod nur wenige Wochen nach der Premiere von Fortnite. “Das war ein Paradigmenwechsel im Gaming auf vielen Ebenen. Es war, als die Grenze zwischen Videospiel und sozialem Netzwerk zu durchbrechen begann “, sagt er.

Dieses Phänomen veranlasste seinen Vorschlag, vom generalistischen Ansatz zur “Vertikalisierung bis zum Maximum” überzugehen. “Voicemod fügt den Spielern und der Metasprache, die jede Gruppe hat und die ihr Identität verleiht, eine Ausdrucksebene hinzu, wie z. B. Insider-Witze”, betont er und stellt fest, dass sie auch Stimmen erzeugen, die denen von Menschen ähneln, ohne wie ein Roboter oder ein Cartoon aussehen zu müssen.

Dies erklärt, warum sie bereits Kooperationsvereinbarungen mit wichtigen Unternehmen der Branche unterzeichnet haben, wie z. B. mit dem chinesischen Riesen Tencent, um die hundert Sprachfilter von Voicemod in ihre Videospiele zu integrieren. Darüber hinaus haben sie kürzlich eine Vereinbarung über geistiges Eigentum mit einigen Warner-Franchises angekündigt. “Wir werden Originalstimmen und -klänge einiger seiner Charaktere kommerzialisieren, aber ich kann immer noch nicht sagen, welche”, beschränkt er sich darauf, es zu kommentieren, obwohl er feststellt, dass es sich sehr auf seine Benutzer konzentrieren wird, “die im Grunde die Generation Z sind”.

Im Moment sammelt Voicemod für Desktop bereits 40 Millionen Downloads und 3 Millionen monatlich aktive Benutzer. Es basiert auf einem Freemium-Geschäftsmodell; Das heißt, eine Version mit kostenlosen Grundfunktionen, und wenn Sie weiter gehen möchten, müssen Sie zur Zahlung eines Abonnements gehen. Die Preise betragen 4 US-Dollar pro Quartal, 10 US-Dollar pro Jahr oder 20 US-Dollar für die Ewigkeit.

Obwohl Videospiele am häufigsten verwendet werden, sind sie nicht die einzigen, die gegeben werden. “Voicemod ist ein virtuelles Kabel, mit dem Sie alles verbinden können, was Sie wollen, Sie sind nicht an die App gebunden, die Sie verwenden, weil Sie es mit jeder App verwenden können”, erklärt er. Tatsächlich bieten sie selbst Tutorials an, um ihre Technologie in Videoanrufanwendungen wie Zoom einsetzen zu können. Derzeit ist einer der Hauptfälle für den professionellen Einsatz dieses Tools bei Content-Erstellern, ob Youtuber oder Vtuber, einer der boomenden Trends in Asien, der nach und nach den Westen erreicht.

Darüber hinaus wird das Produktportfolio weiter ausgebaut. Im vergangenen Februar kaufte Voicemod Voctro Labs, ein Spin-off der Universität Pompeu Fabra (Barcelona), das es dem Benutzer ermöglicht, mit der Stimme eines bestimmten Künstlers zu singen, was er in seine Text-to-Song-Anwendung integrieren wird. Sie haben auch Tuna auf den Markt gebracht, ein Repository von Sounds mit einer ähnlichen Funktion wie Giphy oder Voicemod SDK, um die Audioqualität in Gesprächen zu verbessern, ohne die Latenz zu stark zu beeinträchtigen. “Sie sind wie Satelliten rund um die Hauptanwendung. Wir starten sie als Webplattformen, um schnelle Iterationen zu machen, zu lernen und sie dann zu integrieren “, sagt Bosch, der erklärt, dass sie auch einen Geschäftszweig haben, in dem sie ihre Technologie Dritten anbieten, wie z. B. Kommunikationsanwendungen.

“Wir befinden uns an einem Wendepunkt, denn KI kann sehr positive Aspekte haben, wie z.B. die Veränderung unserer Arbeitsweise und die Verbesserung der menschlichen Kreativität, aber manchmal kann sie sich negativ auf die Gesellschaft auswirken”, erklärt Josep Curto, Direktor des Masters in Business Intelligence und Big Data Analytics an der Universitat Oberta de Catalunya (UOC). Er veranschaulicht dies am Beispiel künstlicher Stimmen: “Die Fähigkeit, die Stimme zu klonen, kann Menschen helfen, die diese Fähigkeit verlieren, wie zum Beispiel einem ALS-Patienten, aber es macht auch die Manipulation sehr einfach.”

Auf die Frage nach der möglichen (und mehr als wahrscheinlichen) Manipulation von Stimmen mit künstlicher Intelligenz erklären sie in Voicemod, dass sie an einer Wasserzeichentechnologie arbeiten, “damit man unterscheiden kann, welche Audios echt sind und welche künstlich erzeugt werden”. “Was wir entwickeln, ist auf dem Niveau, globale Pioniere zu sein, und ist praktisch bereit. Es ist ein robustes System gegen Formatänderungen oder Komprimierungen “, sagt Bosch, der sagt, dass die Idee darin besteht, dieses Tool anderen Unternehmen anzubieten.

Ein weiterer kritischer Punkt ist der Verlust von Arbeitsplätzen für Stimmprofis. In Voicemod beschreiben sie, dass sie in ihrem Fall ihre Datenbanken mit Synchronsprechern vorbereiten, die für das Training dieser Modelle bezahlen. “Wir trainieren nicht mit anderen Arten von Daten”, betonen sie, bevor sie verteidigen, dass KI immer einen Menschen dahinter brauchen wird. “Es ist ein Instrument, das einen Piloten braucht. Die Synchronsprecher haben eine sehr starke, kreative schauspielerische Rolle, die immer da sein wird.”

“Diese Tools werden den Arbeitsmarkt verändern, und in diesen Situationen können Unternehmen auf zwei Arten reagieren: die Fähigkeiten von Menschen erweitern, die für minimale Dienstleistungen arbeiten oder bei einer kleinen Gruppe bleiben”, sagt Curto von der UOC, der sich daran erinnert, dass die Geburt von Google Translate bereits dazu geführt hat, dass viele Übersetzer ihren Job verloren haben.

“Die Sache ist die, dass es ein generisches Werkzeug für einfache Übersetzungen war. Da Sie etwas Spezialisiertes brauchen, machen Sie Fehler und nur ein Experte kann diese Probleme reduzieren “, fügt dieser Spezialist hinzu, der eine Parallele zur Stimme zieht, denn “Wenn Sie eine qualitativ hochwertigere Vokalisierung mit Emotion und Betonung wünschen, brauchen Sie einen Profi. ” Der Punkt ist, dass dies nicht verhinderte, dass einige Übersetzer durch ein viel rudimentäreres Werkzeug ersetzt wurden als künstliche Intelligenzen, die ihre Fähigkeiten immer schneller erhöhen. Man muss sich nur daran erinnern, was mit den Bildern passiert ist: Wenn sie vor weniger als einem Jahr nur Memes erzeugen konnten, sind sie jetzt kaum noch von den echten zu unterscheiden.

Bild: Copyright: andreysuslov

Du möchtest immer die neuesten Nachrichten aus Spanien?
Abonniere unseren Newsletter