¿Cuántas lenguas indígenas hay en México?

México tiene 68 lenguas indígenas nacionales con 364 variantes lingüísticas, agrupadas en 11 familias lingüísticas. Cuenta con 7.36 millones de hablantes, lo que lo posiciona como uno de los 10 países con mayor diversidad lingüística del mundo.

¿Cuántas lenguas indígenas de México están en peligro de extinción?

De las 364 variantes lingüísticas, 64 están en peligro muy alto, 43 en peligro alto, y 72 en riesgo mediano. Lenguas como el Kiliwa (36 hablantes), Ayapaneco (2 hablantes) y Ku'ahl (posiblemente extinta) están al borde de desaparecer.

¿Qué es TOB México?

TOB México es una plataforma de preservación lingüística que utiliza inteligencia artificial para ayudar a las comunidades indígenas a documentar, revitalizar y proteger sus lenguas. El proyecto piloto se enfoca en el Náhuatl, la lengua indígena más hablada de México con 1.7 millones de hablantes.

¿Cómo usa la IA TOB México para preservar lenguas indígenas?

TOB México utiliza modelos de reconocimiento de voz (ASR) como Whisper y MMS de Meta, adaptados para lenguas de bajos recursos. La comunidad graba audio, la IA transcribe, la comunidad valida, y el ciclo se repite. También desarrolla diccionarios comunitarios y apps offline-first para zonas rurales sin internet.

¿Cuál es la lengua indígena más hablada de México?

El Náhuatl (Nahuatlahtolli) es la lengua indígena más hablada de México con 1,725,620 hablantes según el censo INEGI 2020. Le siguen el Maya Yucateco (859,607), Tzeltal (556,720), Mixteco (517,665) y Tzotzil (487,898).

¿Qué es la soberanía de datos indígenas?

La soberanía de datos indígenas significa que las comunidades son dueñas absolutas de sus datos lingüísticos. Las grabaciones, transcripciones y modelos de IA entrenados con sus datos les pertenecen. Inspirado en la licencia Kaitiakitanga de Te Hiku Media en Nueva Zelanda.

TOB México — 68 Lenguas Indígenas Preservadas con IA

Name: Catálogo de 68 lenguas indígenas de México
Creator: TOB México
License: https://creativecommons.org/licenses/by-nc-sa/4.0/

El problema

Una emergencia silenciosa

Cada vez que una lengua muere, desaparece con ella una forma unica de entender el universo. Mexico enfrenta una crisis linguistica sin precedentes: el 23% de sus lenguas estan en peligro muy alto de desaparecer.

Estado de las 364 variantes linguisticas

Peligro muy alto 64

Peligro alto 43

Riesgo mediano 72

Sin riesgo inmediato 185

* Conteo por variantes linguisticas (364 total). Las 68 lenguas se subdividen en variantes regionales, muchas con menos de 100 hablantes.

Casos extremos: lenguas al borde de la extincion

Ku'ahl

Posiblemente extinta

Familia Cochimi-yumana. Baja California. No se han registrado hablantes nativos en las ultimas decadas.

Ayapaneco

2 hablantes conocidos

Familia Mixe-zoque. Tabasco. Los dos ultimos hablantes viven en Ayapa, municipio de Jalpa de Mendez.

Ixcateco

30 hablantes, todos mayores

Familia Oto-mangue. Oaxaca. Santa Maria Ixcatlan. Sin transmision intergeneracional.

Kiliwa

36 hablantes

Familia Cochimi-yumana. Baja California. Comunidad de Arroyo de Leon. Esfuerzos de documentacion en curso.

Cucapa

Menos de 100 hablantes

Familia Cochimi-yumana. Baja California y Sonora. Comunidad El Mayor, Mexicali.

Paipai

Aproximadamente 200 hablantes

Familia Cochimi-yumana. Baja California. Santa Catarina y San Isidoro.

Linea del tiempo de la perdida linguistica

1520

Se estima que existian mas de 500 lenguas en el territorio mexicano al momento del contacto europeo.

1770

Carlos III decreta la imposicion del espanol como unica lengua del imperio, prohibiendo lenguas indigenas en la educacion.

1920

Politicas de castellanizacion masiva post-revolucion. Se castiga a ninos por hablar sus lenguas en la escuela.

2003

Ley General de Derechos Linguisticos reconoce 68 lenguas como nacionales. Se crea el INALI.

2025

364 variantes documentadas. 64 en peligro muy alto. La UNESCO declara 2022-2032 como Decada de las Lenguas Indigenas.

Geografia linguistica

Mapa de la diversidad

Mexico es uno de los 10 paises con mayor diversidad linguistica del mundo. Explora los estados con mayor concentracion de lenguas indigenas.

Pasa el cursor sobre un estado para ver informacion linguistica

Proyecto piloto

Nahuatl: la lengua del proyecto piloto

EN DESARROLLO ACTIVO

Nahuatlahtolli

Nahuatl — La lengua clara

1,725,620 Hablantes

30 Variantes

15 Estados

Familia:Yuto-nahua (Uto-azteca)

Clasificacion:Lengua nacional de Mexico

Recursos digitales:Medio — Algunos diccionarios y textos digitalizados

Estados principales:Puebla, Veracruz, Hidalgo, SLP, Guerrero, Tlaxcala, Morelos, EdoMex, Oaxaca, Durango, Michoacan, Tabasco, Jalisco, Nayarit, Colima

Lo que estamos construyendo

Traductor con IA

Traduce entre espanol, ingles y nahuatl usando diccionario verificado, corpus biblico paralelo e inteligencia artificial.

Diccionario comunitario vivo

120+ palabras en nahuatl con traduccion, pronunciacion y categoria gramatical. Las comunidades agregan y validan datos.

Biblioteca de audio

Cientos de horas de grabaciones reales de hablantes nativos de Bible.is, GRN, Scripture Earth y CMU Wilderness.

Progreso del proyecto

Investigacion y alianzas 0%

Recopilacion de datos de audio 0%

Modelo ASR (Whisper fine-tuning) 0%

Diccionario comunitario 0%

App movil offline 0%

Abrir la Plataforma

In tlalli ipan titlacah, amo titlacah ipan tlalli. — Vivimos sobre la tierra, no somos duenos de la tierra.
— Proverbio nahuatl

Catalogo completo

Las 68 lenguas indigenas de Mexico

Cada lengua representa una cosmovision unica, un sistema de conocimiento ancestral y una identidad cultural irreemplazable.

La tecnologia

IA al servicio de las comunidades

No se trata de reemplazar a los hablantes, sino de darles herramientas para que ellos mismos preserven y revitalicen sus lenguas.

El ciclo virtuoso

La comunidad graba

Hablantes nativos graban audio en su lengua

La IA transcribe

Modelos ASR transcriben el audio a texto

La comunidad valida

Los hablantes corrigen las transcripciones

El diccionario crece

Cada validacion enriquece el recurso

La IA aprende

Los datos mejoran el modelo

Speech-to-Text (ASR)

Modelos de reconocimiento de voz adaptados a lenguas de bajos recursos. Fine-tuning de Whisper (OpenAI) y MMS (Meta) con datos comunitarios validados.

Traduccion automatica

Traduccion bidireccional lengua indigena a espanol y viceversa. Modelos entrenados con corpus paralelos validados por la comunidad.

Diccionario comunitario

Plataforma colaborativa donde la comunidad construye y valida su propio diccionario con audio, definiciones, contexto cultural y variantes dialectales.

App Offline-First

Aplicacion movil que funciona sin conexion a internet, disenada para comunidades rurales. Progressive Web App con sincronizacion inteligente.

Un cambio de paradigma

Modelo colonial

Linguistas externos documentan
Datos guardados en universidades
La comunidad es objeto de estudio
Publicaciones academicas cerradas

Modelo comunitario con IA

La comunidad documenta y valida
Datos bajo control comunitario
La comunidad es protagonista
IA amplifica capacidad comunitaria

Inspirado en el trabajo de Te Hiku Media (Nueva Zelanda), que demostro que las comunidades indigenas pueden liderar el desarrollo de tecnologia de IA para sus propias lenguas.

Principio fundamental

Soberania de datos indigenas

Los datos linguisticos son patrimonio cultural de las comunidades. No de Silicon Valley, no de universidades, no de gobiernos. De la comunidad.

01

Propiedad comunitaria

Cada comunidad es duena absoluta de sus datos linguisticos. Las grabaciones, transcripciones, diccionarios y modelos entrenados con sus datos les pertenecen. Ninguna entidad externa puede reclamar propiedad sobre conocimiento ancestral digitalizado.

02

Acceso abierto controlado

La comunidad decide quien puede acceder a sus datos y bajo que condiciones. Investigadores, desarrolladores y organizaciones deben solicitar permiso y respetar los terminos establecidos por la comunidad.

03

Sin extraccion corporativa

Los datos no pueden ser utilizados para entrenar modelos comerciales sin consentimiento explicito y compensacion justa. Nos oponemos al extractivismo digital que toma conocimiento indigena para beneficio corporativo.

Inspirados en la licencia Kaitiakitanga de Te Hiku Media: los datos son un taonga (tesoro sagrado) que debe ser protegido por y para la comunidad.

Red de colaboracion

Organizaciones aliadas

Trabajamos junto a organizaciones que comparten la vision de preservar las lenguas indigenas a traves de tecnologia y participacion comunitaria.

SIL International

Investigacion linguistica y desarrollo de herramientas para lenguas minoritarias. Creadores de Ethnologue y recursos para documentacion linguistica.

INALI

Instituto Nacional de Lenguas Indigenas de Mexico. Catalogo oficial de lenguas, politicas de revitalizacion linguistica y normalizacion.

UNAM / IIMAS

Instituto de Investigaciones en Matematicas Aplicadas y en Sistemas. Investigacion en procesamiento de lenguaje natural para lenguas indigenas mexicanas.

Rising Voices

Iniciativa de Global Voices que apoya activismo digital en lenguas indigenas y minoritarias. Red de activistas linguisticos digitales.

Living Tongues Institute

Documentacion de lenguas en peligro mediante tecnologia. Creadores de herramientas de diccionarios parlantes y archivos linguisticos.

ETEN Lab

Laboratorio de tecnologia linguistica enfocado en traduccion biblica y herramientas para lenguas de bajos recursos digitales.

Faith Comes By Hearing

Grabaciones de audio en mas de 1,700 lenguas. Base de datos de audio que puede complementar el entrenamiento de modelos ASR.

COMIMEX

Cooperacion Misionera de Mexico. Alcance comunitario y relaciones con comunidades indigenas en todo el territorio mexicano.

UNTI

Union Nacional de Traductores Indigenas. Red de traductores nativos que pueden validar y enriquecer los recursos linguisticos generados por IA.

Unete

Como participar

Cada persona puede contribuir desde su lugar. La preservacion linguistica es un esfuerzo colectivo.

Hablante nativo

Tu voz es el recurso mas valioso. Graba palabras, frases, historias y canciones en tu lengua. Cada grabacion contribuye a preservar tu idioma para las futuras generaciones.

Contribuir palabras y frases

Linguista

Aporta tu expertise en documentacion linguistica, fonologia, morfologia o sociolinguistica. Ayuda a disenar protocolos de documentacion y a validar la calidad de los recursos generados.

Contribuir expertise

Desarrollador

El proyecto es open source. Necesitamos expertise en NLP, modelos de voz, desarrollo movil offline-first y plataformas comunitarias. Cada contribucion de codigo tiene impacto directo.

Ver repositorio

Donante

Financia viajes a comunidades, equipos de grabacion, servidores de IA y el desarrollo de la plataforma. Cada peso invertido se traduce en horas de audio preservado y tecnologia accesible.

Apoyar el proyecto

Recursos

Blog y recursos

2026-03-08

Ver los 8 articulos

Contacto

Hablemos

Si eres hablante, linguista, desarrollador, u organizacion interesada en colaborar, escribenos.

david@innovaycree.com

JUCUM Mazatlan, Sinaloa, Mexico

Preservando las voces de Mexico