Proyecto activo — Fase piloto con Nahuatl

Preservando las voces de Mexico

Inteligencia artificial al servicio de las comunidades indigenas para documentar, revitalizar y proteger 68 lenguas ancestrales que son patrimonio de la humanidad.

Explorar lenguas Conoce el proyecto
0 Lenguas indigenas
0 Hablantes
0 Variantes linguisticas
0 En peligro critico

El problema

Una emergencia silenciosa

Cada vez que una lengua muere, desaparece con ella una forma unica de entender el universo. Mexico enfrenta una crisis linguistica sin precedentes: el 23% de sus lenguas estan en peligro muy alto de desaparecer.

Estado de las 364 variantes linguisticas

Peligro muy alto 64
Peligro alto 43
Riesgo mediano 72
Sin riesgo inmediato 185

* Conteo por variantes linguisticas (364 total). Las 68 lenguas se subdividen en variantes regionales, muchas con menos de 100 hablantes.

Casos extremos: lenguas al borde de la extincion

0

Ku'ahl

Posiblemente extinta

Familia Cochimi-yumana. Baja California. No se han registrado hablantes nativos en las ultimas decadas.

2

Ayapaneco

2 hablantes conocidos

Familia Mixe-zoque. Tabasco. Los dos ultimos hablantes viven en Ayapa, municipio de Jalpa de Mendez.

30

Ixcateco

30 hablantes, todos mayores

Familia Oto-mangue. Oaxaca. Santa Maria Ixcatlan. Sin transmision intergeneracional.

36

Kiliwa

36 hablantes

Familia Cochimi-yumana. Baja California. Comunidad de Arroyo de Leon. Esfuerzos de documentacion en curso.

100

Cucapa

Menos de 100 hablantes

Familia Cochimi-yumana. Baja California y Sonora. Comunidad El Mayor, Mexicali.

200

Paipai

Aproximadamente 200 hablantes

Familia Cochimi-yumana. Baja California. Santa Catarina y San Isidoro.

Linea del tiempo de la perdida linguistica

1520

Se estima que existian mas de 500 lenguas en el territorio mexicano al momento del contacto europeo.

1770

Carlos III decreta la imposicion del espanol como unica lengua del imperio, prohibiendo lenguas indigenas en la educacion.

1920

Politicas de castellanizacion masiva post-revolucion. Se castiga a ninos por hablar sus lenguas en la escuela.

2003

Ley General de Derechos Linguisticos reconoce 68 lenguas como nacionales. Se crea el INALI.

2025

364 variantes documentadas. 64 en peligro muy alto. La UNESCO declara 2022-2032 como Decada de las Lenguas Indigenas.

Geografia linguistica

Mapa de la diversidad

Mexico es uno de los 10 paises con mayor diversidad linguistica del mundo. Explora los estados con mayor concentracion de lenguas indigenas.

Pasa el cursor sobre un estado para ver informacion linguistica

Proyecto piloto

Nahuatl: la lengua del proyecto piloto

EN DESARROLLO ACTIVO

Nahuatlahtolli

Nahuatl — La lengua clara

1,725,620 Hablantes
30 Variantes
15 Estados
Familia:Yuto-nahua (Uto-azteca)
Clasificacion:Lengua nacional de Mexico
Recursos digitales:Medio — Algunos diccionarios y textos digitalizados
Estados principales:Puebla, Veracruz, Hidalgo, SLP, Guerrero, Tlaxcala, Morelos, EdoMex, Oaxaca, Durango, Michoacan, Tabasco, Jalisco, Nayarit, Colima

Lo que estamos construyendo

Reconocimiento de voz (ASR)

Modelo de IA entrenado para transcribir nahuatl hablado a texto. Basado en Whisper y MMS de Meta.

Diccionario comunitario vivo

Plataforma donde las comunidades agregan, validan y enriquecen su propio diccionario con audio, contexto y variantes regionales.

App offline-first

Aplicacion que funciona sin internet para comunidades rurales. Sincroniza cuando hay conexion disponible.

Progreso del proyecto

Investigacion y alianzas 0%
Recopilacion de datos de audio 0%
Modelo ASR (Whisper fine-tuning) 0%
Diccionario comunitario 0%
App movil offline 0%

In tlalli ipan titlacah, amo titlacah ipan tlalli. — Vivimos sobre la tierra, no somos duenos de la tierra.

— Proverbio nahuatl

La tecnologia

IA al servicio de las comunidades

No se trata de reemplazar a los hablantes, sino de darles herramientas para que ellos mismos preserven y revitalicen sus lenguas.

El ciclo virtuoso

La comunidad graba

Hablantes nativos graban audio en su lengua

La IA transcribe

Modelos ASR transcriben el audio a texto

La comunidad valida

Los hablantes corrigen las transcripciones

El diccionario crece

Cada validacion enriquece el recurso

La IA aprende

Los datos mejoran el modelo

Speech-to-Text (ASR)

Modelos de reconocimiento de voz adaptados a lenguas de bajos recursos. Fine-tuning de Whisper (OpenAI) y MMS (Meta) con datos comunitarios validados.

Traduccion automatica

Traduccion bidireccional lengua indigena a espanol y viceversa. Modelos entrenados con corpus paralelos validados por la comunidad.

Diccionario comunitario

Plataforma colaborativa donde la comunidad construye y valida su propio diccionario con audio, definiciones, contexto cultural y variantes dialectales.

App Offline-First

Aplicacion movil que funciona sin conexion a internet, disenada para comunidades rurales. Progressive Web App con sincronizacion inteligente.

Un cambio de paradigma

Modelo colonial

  • Linguistas externos documentan
  • Datos guardados en universidades
  • La comunidad es objeto de estudio
  • Publicaciones academicas cerradas

Modelo comunitario con IA

  • La comunidad documenta y valida
  • Datos bajo control comunitario
  • La comunidad es protagonista
  • IA amplifica capacidad comunitaria

Inspirado en el trabajo de Te Hiku Media (Nueva Zelanda), que demostro que las comunidades indigenas pueden liderar el desarrollo de tecnologia de IA para sus propias lenguas.

Principio fundamental

Soberania de datos indigenas

Los datos linguisticos son patrimonio cultural de las comunidades. No de Silicon Valley, no de universidades, no de gobiernos. De la comunidad.

01

Propiedad comunitaria

Cada comunidad es duena absoluta de sus datos linguisticos. Las grabaciones, transcripciones, diccionarios y modelos entrenados con sus datos les pertenecen. Ninguna entidad externa puede reclamar propiedad sobre conocimiento ancestral digitalizado.

02

Acceso abierto controlado

La comunidad decide quien puede acceder a sus datos y bajo que condiciones. Investigadores, desarrolladores y organizaciones deben solicitar permiso y respetar los terminos establecidos por la comunidad.

03

Sin extraccion corporativa

Los datos no pueden ser utilizados para entrenar modelos comerciales sin consentimiento explicito y compensacion justa. Nos oponemos al extractivismo digital que toma conocimiento indigena para beneficio corporativo.

Inspirados en la licencia Kaitiakitanga de Te Hiku Media: los datos son un taonga (tesoro sagrado) que debe ser protegido por y para la comunidad.

Red de colaboracion

Organizaciones aliadas

Trabajamos junto a organizaciones que comparten la vision de preservar las lenguas indigenas a traves de tecnologia y participacion comunitaria.

SIL International

Investigacion linguistica y desarrollo de herramientas para lenguas minoritarias. Creadores de Ethnologue y recursos para documentacion linguistica.

INALI

Instituto Nacional de Lenguas Indigenas de Mexico. Catalogo oficial de lenguas, politicas de revitalizacion linguistica y normalizacion.

UNAM / IIMAS

Instituto de Investigaciones en Matematicas Aplicadas y en Sistemas. Investigacion en procesamiento de lenguaje natural para lenguas indigenas mexicanas.

Rising Voices

Iniciativa de Global Voices que apoya activismo digital en lenguas indigenas y minoritarias. Red de activistas linguisticos digitales.

Living Tongues Institute

Documentacion de lenguas en peligro mediante tecnologia. Creadores de herramientas de diccionarios parlantes y archivos linguisticos.

ETEN Lab

Laboratorio de tecnologia linguistica enfocado en traduccion biblica y herramientas para lenguas de bajos recursos digitales.

Faith Comes By Hearing

Grabaciones de audio en mas de 1,700 lenguas. Base de datos de audio que puede complementar el entrenamiento de modelos ASR.

COMIMEX

Cooperacion Misionera de Mexico. Alcance comunitario y relaciones con comunidades indigenas en todo el territorio mexicano.

UNTI

Union Nacional de Traductores Indigenas. Red de traductores nativos que pueden validar y enriquecer los recursos linguisticos generados por IA.

Unete

Como participar

Cada persona puede contribuir desde su lugar. La preservacion linguistica es un esfuerzo colectivo.

Hablante nativo

Tu voz es el recurso mas valioso. Graba palabras, frases, historias y canciones en tu lengua. Cada grabacion contribuye a preservar tu idioma para las futuras generaciones.

Quiero grabar mi lengua

Linguista

Aporta tu expertise en documentacion linguistica, fonologia, morfologia o sociolinguistica. Ayuda a disenar protocolos de documentacion y a validar la calidad de los recursos generados.

Contribuir expertise

Desarrollador

El proyecto es open source. Necesitamos expertise en NLP, modelos de voz, desarrollo movil offline-first y plataformas comunitarias. Cada contribucion de codigo tiene impacto directo.

Ver repositorio

Donante

Financia viajes a comunidades, equipos de grabacion, servidores de IA y el desarrollo de la plataforma. Cada peso invertido se traduce en horas de audio preservado y tecnologia accesible.

Apoyar el proyecto

Recursos

Blog y recursos

2026-03-01

Por que las lenguas indigenas de Mexico necesitan IA ahora

Un analisis del estado actual de las 68 lenguas indigenas de Mexico y como la inteligencia artificial puede acelerar su documentacion y revitalizacion antes de que sea demasiado tarde.

Proximamente
2026-03-15

Lecciones de Te Hiku Media: soberania de datos linguisticos en la era de la IA

Como una organizacion maori en Nueva Zelanda cambio las reglas del juego al desarrollar su propio modelo de reconocimiento de voz y establecer precedentes sobre propiedad de datos indigenas.

Proximamente
2026-04-01

Whisper vs MMS: comparativa de modelos ASR para nahuatl

Resultados preliminares de nuestros experimentos con fine-tuning de Whisper y MMS de Meta para el reconocimiento de voz en nahuatl. Desafios, resultados y proximos pasos.

Proximamente

Contacto

Hablemos

Si eres hablante, linguista, desarrollador, u organizacion interesada en colaborar, escribenos.

contacto@tobmexico.com

JUCUM Mazatlan, Sinaloa, Mexico