Spanien wird der KI beibringen Spanisch, Katalanisch, Baskisch und Galicisch zu sprechen um die nationale Identität zu schützen

Von

26. Februar 2024

1453

Die Projekte AINA und ILENIA des Barcelona Supercomputing Center arbeiten bereits an mehreren Modellen, um diese Technologie in den Co-Amtssprachen Spaniens zu trainieren.

Egunon! Zer nahi duzu egun honetan? So reagiert ChatGPT von OpenAI, wenn man es auf Baskisch begrüßt. Können Sie mir etwas auf Katalanisch sagen? “Benvingut a la bellesa de la llengua catalana, una expressió de la riquesa cultural de Catalunya i de les seves terres” Und auf Galizisch? “Benvido á beleza da lingua galega, unha expresión da riqueza cultural de Galicia e das súas terras”.

Sam Altmans künstliche Intelligenz, eine der fortschrittlichsten, sichert diese Technologie. Sie war noch nie im Unterricht und wurde nicht einmal in diesen Sprachen programmiert. “Ich habe Zugriff auf viele Textdaten in mehreren Sprachen, auch auf diese”, antwortet er. “Durch diesen Zugang zu Daten habe ich linguistische Muster, Grammatik und Vokabular in diesen Sprachen gelernt, was es mir ermöglicht, kohärente und relevante Texte zu erstellen”, fügt er hinzu. Aber nicht nur in diesen Sprachen, auch Spanisch hat sie mit dieser Methode gelernt

“Bei vielen Gelegenheiten wurden diese Systeme mit aus dem Englischen übersetzten Texten trainiert und nehmen seltsame Wendungen”, erklären Quellen des Ministeriums für digitale Transformation und des öffentlichen Dienstes der spanischen Regierung gegenüber dieser Zeitung. “Wir werden in öffentlich-privater Zusammenarbeit mit dem Barcelona Supercomputing Center, dem Spanish Supercomputing Network, der Spanish Academy of Language und dem Netzwerk der Akademien zusammenarbeiten, um ein großes grundlegendes Modell einer Sprache der künstlichen Intelligenz aufzubauen, die in Spanisch und den Co-Amtssprachen trainiert wird, in offener und transparenter Quelle”, sagte Pedro Sánchez am vergangenen Sonntag. Präsident der spanischen Regierung, beim offiziellen Abendessen des Mobile World Congress in Barcelona. “Jetzt gibt es mehrere Projekte, aber es gibt keine ‘Bibliothek’, um sie zu füttern”, sagen Regierungsquellen. Das Barcelona Supercomputing Center arbeitet jedoch seit Monaten daran, allerdings mit Katalanisch, Baskisch und Galizisch als Epizentrum in zwei Arbeitsbereichen namens ILENIA und AINA.

Generative künstliche Intelligenz, wie man sie bei ChatGPT sieht, wird auf Spanisch verteidigt, sagt José María Sánchez Santa Cecilia, Vizepräsident der Prodware Group – einem der größten Zulieferer von Microsoft – in einem Telefongespräch. Er glaubt jedoch, dass “diese Ankündigung nicht mit Tools wie ChatGPT oder anderen konkurrieren soll”, sagt der Manager. “Der Schlüssel liegt darin, die spanische Sprache zu schützen und sie genauer zu machen, wenn es darum geht, darauf zu reagieren, indem man ein spanisches System hat, das sie füttert”, fügt er hinzu.

Sprachmodelle benötigen riesige Korpora linguistischer Daten. “Um Ihnen eine Vorstellung zu geben: ChatGPT 3.5 ist mit mehr als 5 Milliarden Wörtern trainiert”, sagt Xabier Saralegi, Chief Technology Officer bei Orai NPL Tecnologiak. Und 90 % dieser Datenbank, aus der generative KI schöpft, ist in englischer Sprache. “Wir wollen, dass Spanien auf internationaler Ebene eine relevante Rolle bei der Entwicklung von KI spielt”, sagte Sánchez in seiner Rede an die Branche.

Diese Technologie basiert auf Sprachmodellen, die als Large Language Models (LLMs) bezeichnet werden und “mit einer gigantischen Menge an Text aus dem Internet, digitalen Büchern, Zeitungen und digitalen Bibliotheken trainiert werden”, erklärt Richard Benjamins, Leiter der Abteilung für künstliche Intelligenz bei Telefónica. Diese neuen Werkzeuge sind so programmiert, dass sie menschliche Sprache verstehen und generieren, und “das geschieht, indem man ihnen ein paar Sätze gibt und Wörter wegnimmt, damit sie sie vervollständigen können”, erklärt Saralegi. Das Problem ist, dass Maschinen aufgehört haben, binär (Einsen und Nullen) zu sprechen, um in der Sprache Shakespeares zu sprechen. Trotzdem ist Spanisch eine der Hauptsprachen in den sozialen Medien und eine der meistgehörten Sprachen auf Spotify.

Die Sprache von Cervantes ist die Muttersprache von 6,2 % der Weltbevölkerung. Etwa 500 Millionen Menschen sprechen es und sind damit nach Mandarin-Chinesisch das zweithäufigste Mal. Unsere Muttersprache ist ein Wirtschaftsmotor und 10% des weltweiten BIP mit Kaufkraft sind in der Lage, ein Gespräch auf Spanisch zu führen. In Spanien trägt sie 16 % zum BIP und zur Beschäftigung bei, und allein in der Kulturindustrie macht sie rund 3 % des BIP aus. Das Pro-Kopf-Einkommen der Spanischsprachigen würde sich auf fast 21.000 Euro belaufen, obwohl die Prognose für die kommenden Jahrzehnte lautet, dass es aufgrund des Aufkommens neuer Technologien sinken wird. Diese neuen technologischen Werkzeuge werden jedoch eher mit Tee als mit Bravas verstanden.

“Spanisch liegt hinter dem Englischen, weil diese Technologie offensichtlich von großen Technologieunternehmen entwickelt wird, und sie sind amerikanisch”, sagte Asunción Gómez-Pérez, ein ordentliches Mitglied der Königlichen Spanischen Akademie (RAE), der einen Abschluss in Informatik von der Polytechnischen Universität Madrid und einen Doktortitel in Informatik und künstlicher Intelligenz hat.

Die Algorithmen, die die generative KI antreiben, lernen Sprachmuster und generieren Antworten mit den wahrscheinlichsten Wörtern. Die neue Initiative, die von Moncloa vorgeschlagen wurde, zielt darauf ab, eine offene, öffentliche und zugängliche Sprachinfrastruktur für Unternehmen bereitzustellen, damit sie über ein groß angelegtes Sprachmodell verfügen können, das in Spanisch und Co-Amtssprachen ausgebildet ist und Dienstleistungen im Bereich der Sprachtechnologien anbietet, damit sie fortschrittliche Anwendungen für die spätere wirtschaftliche Nutzung entwickeln können.

Das Verschwinden der Sprache verhindern

“Der Schlüssel ist, dass diese Technologien keine übersetzten Texte nehmen, sondern dass sie auf Spanisch oder in den Co-Amtssprachen ‘denken'”, sagen Quellen aus dem Ministerium von José Luis Escrivá. Derzeit zielt das ILENIA-Projekt (Promotion of Languages in Artificial Intelligence), das im Rahmen des Strategischen Projekts zur wirtschaftlichen Erholung und Transformation (PERTE) der New Language Economy (NEL) angesiedelt ist, darauf ab, mehrsprachige Ressourcen zu entwickeln, insbesondere mehrsprachige Modelle der Text-, Sprach- und maschinellen Übersetzung, die den Bedürfnissen der Gesellschaft entsprechen und mit der aktuellen Technologie übereinstimmen. “Der Schlüssel dazu ist, dass Sprachen wie Baskisch, Katalanisch oder Galizisch nicht verschwinden”, sagt Salergi. “Wir trainieren eine KI mit 2 Milliarden unlizenzierten Wörtern auf Baskisch”, sagt er. “Wir könnten auf 5 Milliarden kommen, aber es gibt noch mehr Probleme”, fügt er hinzu. Im Falle von Katalanisch gibt es laut Quellen in der Branche 0,019 % der Daten in dieser Sprache.

“Wir müssen weitermachen”, antwortet der Chief Technology Officer von Orai NPL. Im Moment arbeitet das baskische Unternehmen an der Erstellung eines grundlegenden Modells in baskischer Sprache, das auf einem englischsprachigen Modell basiert. “Wir haben keine Datenbank, die groß genug ist, um bei Null anzufangen”, warnt er. “Dann werden wir in der Lage sein, andere Werkzeuge zu entwickeln”, fügt er hinzu.

Im Rahmen von ILENIA und der Koordination des Barcelona Supercomputing Center arbeiten baskische, katalanische und galicische Unternehmen und Verwaltungen bereits an der Erstellung eines gemeinsamen Korpus von Sätzen, die gelesen werden müssen, um diese Sprachen zu schützen, damit sie in der neuen Ökonomie der Sprache nicht verloren gehen.

Bild: azherjawed

Du möchtest immer die neuesten Nachrichten aus Spanien?
Abonniere unseren Newsletter