IA e lingue africane: cos'è il progetto WAXAL di Google
Arte e Cultura Tecnologia
Il progetto open source WAXAL di Google porta le lingue subsahariane nel futuro dell’IA
Intelligenza artificiale: l’Africa sfida il colonialismo digitale
Un database di 2 milioni di registrazioni per garantire che le lingue madri del continente non siano escluse dalla rete globale. Un ponte tra tradizioni orali e sviluppo tecnologico per abbattere le barriere linguistiche e culturali
19 Febbraio 2026
Articolo di Antonella Sinopoli (da Accra)
Tempo di lettura 4 minuti

Quanti di noi ormai “parlano” con i dispositivi. Chiediamo indicazioni stradali, le ultime notizie, il significato di una parola, di tradurre un testo. Insomma, l’interazione tra l’essere umano e i tanti device che abbiamo a portata di mano è diventata prassi quotidiana. Ma se la tecnologia non ci comprende? Se non parla la nostra lingua?

Questo accade a milioni di persone la cui lingua madre, anche quando diffusissima, è considerata “minore” in virtù di vecchi processi di colonizzazione culturale. È così per l’Africa subsahariana dove “circolano” qualcosa come 2mila lingue diverse, che rappresentano circa un terzo di tutte le lingue del mondo.

Eppure, delle oltre 2mila lingue parlate nel continente, solo 49 sono disponibili su piattaforme di traduzione come Google Translate. E addirittura l’88% delle lingue africane è “gravemente sottorappresentato” o “completamente ignorato” nella linguistica computazionale, cioè quella disciplina che traduce il linguaggio umano per le macchine.

E risulta che meno del 5% di queste lingue dispone delle risorse necessarie per l’elaborazione del linguaggio naturale (NLP), che consente appunto ai computer di comprendere il linguaggio umano.

WAXAL: parlare in digitale

È per gettare un ponte tra le nuove tecnologie e lo sviluppo rapido dell’IA in ogni settore che è stato sviluppato un progetto open source di archiviazione e riconoscimento delle lingue africane (compresi intonazioni e accenti).

L’iniziativa, che mira dunque a colmare una lacuna importante nello sviluppo dell’intelligenza artificiale a livello globale, è di Google ma si avvale del lavoro di università e istituti di ricerca africani.

Si chiama WAXAL, che in wolof significa “parlare”, ed è un database vocale open source progettato per supportare lo sviluppo dell’IA basata sulla voce per le lingue africane. Un database che da oggi abbatte quello che era il principale ostacolo alla creazione di tecnologie vocali utili in questa parte del mondo, vale a dire la mancanza di dati vocali accessibili e di alta qualità.

Una rete di competenze

A rendere possibile la costruzione di questo database – al quale sviluppatori, ricercatori, tecnici potranno ora fare riferimento – è stato il lavoro di team della Makerere University in Uganda e dell’Università del Ghana, che hanno guidato la raccolta dati per un totale di 13 lingue; della Digital Umuganda in Rwanda che ha guidato il lavoro per cinque lingue e dell’African Institute for Mathematical Sciences (AIMS). Inoltre, per le registrazioni vocali di alta qualità, ci si è avvalsi di esperti della Media Trust and Loud n Clear.

Tali partner manterranno la proprietà dei dati raccolti, rendendo al contempo le risorse disponibili alla comunità di ricerca globale. Il progetto ha richiesto tre anni di lavoro. Il set fornisce dati per 21 lingue dell’Africa subsahariana, contiene oltre 11mila ore di parlato, tratte da quasi 2 milioni di registrazioni individuali. 

IA e conservazione culturale

Si è cercato di catturare il più possibile il modo in cui le persone parlano realmente, e sono stati inoltre registrati in studio doppiatori professionisti per creare audio di alta qualità necessari per la tecnologia text-to-speech.

Il progetto intende supportare lo sviluppo di sistemi di riconoscimento vocale, assistenti vocali, strumenti di sintesi vocale e altre applicazioni del genere in settori quali istruzione, sanità, agricoltura e servizi pubblici.

Oltre a supportare l’innovazione nell’intelligenza artificiale, si prevede che WAXAL contribuirà alla conservazione digitale delle lingue africane. Il set di dati completo, rilasciato in open source come dicevamo, è disponibile su Hugging Face.

Il contesto tecnologico africano

Il lancio di questa iniziativa avviene in un contesto di crescente impegno nel continente per sviluppare tecnologie linguistiche che riflettano le culture e le realtà locali. Questa iniziativa si unisce a sforzi in atto a livello locale che mirano a portare le lingue africane nella Rete globale.

Citiamo N-ATLAS, lanciato a settembre 2025 dal governo nigeriano. Si tratta di un modello linguistico open source in grado di riconoscere e trascrivere parole pronunciate e di generare testo in yoruba, hausa, igbo e inglese con accento nigeriano. 

Oppure, nel settore privato, Vulavula, sviluppata dalla startup sudafricana Lelapa AI, che offre riconoscimento vocale, traduzione e addirittura analizza gli aspetti emozionali contenuti nel tono di un testo. 

Per tornare a WAXAL, queste sono le 21 lingue che compongono il sed di dati vocali: acholi, akan, dagaare, dagbani, dholuo, ewe, fante, fulani (fula), hausa, igbo, ikposo (kposo), kikuyu, lingala, luganda, malgascio, masaaba, nyankole, rukiga, shona, soga (lusoga), swahili e yoruba.

Copyright © Nigrizia - Per la riproduzione integrale o parziale di questo articolo contattare previamente la redazione: redazione@nigrizia.it
Africae 2026