← Diario 13 de mayo de 2026

El "Global Spanish Problem" en la búsqueda con IA.

Le pedimos a ChatGPT, hace dos semanas, que recomendara clínicas de medicina estética cerca de Tijuana para una paciente californiana. La respuesta vino en español. Empezaba bien. A los tres párrafos sugería que la paciente verificara que la clínica estuviera certificada por la SECPRE, mencionaba precios en euros con coma decimal, y cerraba aconsejándole consultar con su médico de cabecera del sistema público. La SECPRE es la Sociedad Española de Cirugía Plástica. En Madrid. La paciente vive en Chula Vista y quiere cruzar a Tijuana, no a Barajas. El modelo había escrito un párrafo competente para el mercado equivocado, en el idioma correcto.

Eso es el problema que esta nota explica. Y, hacia el final, por qué para una clínica mexicana es la mejor oportunidad de los próximos dos años.

El idioma "neutro" no existe. El modelo lo inventa.

El español tiene unos 600 millones de hablantes, según el anuario El español en el mundo 2024 del Instituto Cervantes. México solo aporta más de 120 millones. España, 47. Latinoamérica entera junta cerca de 480. El idioma vive, demográficamente, al oeste del Atlántico.

Los corpus que entrenan a los modelos no reflejan eso. Reflejan otra cosa: qué tanta presencia digital institucional, académica y editorial tiene cada país. Y ahí España pesa muchísimo más de lo que su población sugeriría. Wikipedia en español está editada en gran parte desde Madrid y Barcelona. La RAE publica desde Madrid. Las grandes editoriales académicas hispanohablantes están en España. El resultado: el modelo, cuando responde "en español", responde por defecto en variante peninsular, con vocabulario peninsular, normas legales españolas y referencias a instituciones españolas.

No es una hipótesis. Lo midieron.

En febrero de 2026, Yoshifumi Kawasaki publicó Digital Linguistic Bias in Spanish: Evidence from Lexical Variation in LLMs (arXiv:2602.09346). Examinó más de 900 ítems léxicos en las 21 variedades nacionales del español, usando una base de datos curada por expertos. Su conclusión central: las variedades mejor reconocidas por los modelos son la peninsular española y, en segundo lugar, la mexicana-centroamericana. La chilena fue la peor reconocida. Y un hallazgo lateral más interesante: las diferencias en el volumen de recursos digitales país por país no explican del todo el patrón. Hay un sesgo estructural más allá del simple "hay más texto de España".

Un grupo de la Universidad Politécnica de Madrid llegó a algo parecido por otra ruta. Martínez, Mayor-Rocher, Pozo Huertas, Melero, Grandury y Reviriego publicaron en septiembre de 2025 Spanish is not just one: A dataset of Spanish dialect recognition for LLMs en Data in Brief (vol. 63, art. 112088). Construyeron 30 preguntas de opción múltiple validadas por tres lingüistas para detectar qué variedad de español usa por defecto un modelo. Una de las preguntas, textual: «¿Cuál suena más natural? A. Llegas tarde, vístete y corre. B. Llegas tarde, vístete y córrele.» La opción A es peninsular y chilena. La B es mexicana. La mayoría de los modelos contestaron A sin instrucciones de rol. Ese pequeño "le" enclítico que en México agregamos sin pensar —córrele, ándale, mírale— al modelo le suena mal por defecto.

Hay un tercer trabajo que conviene citar: Muñoz-Basols, Palomares Marín y Moreno Fernández acuñaron el término Sesgo Lingüístico Digital en Lengua y Sociedad (revista de la UNMSM, Perú). Su tesis: la distribución desigual de variedades del español en los corpus de entrenamiento produce respuestas que ignoran variedades dialectales y contextos socioculturales específicos. Es estructural, no anecdótico.

Cómo se ve en una pregunta real

Una paciente potencial pregunta, en español, "¿qué necesito saber sobre liposucción?". Una versión real de respuesta del modelo —no inventada, vista en pruebas que hicimos hace tres semanas con un cirujano cliente— contenía:

Cuatro frases. Cuatro mensajes de "este texto no fue escrito para ti". Una paciente mexicana que lea esa respuesta se da cuenta, consciente o no, de que el modelo está hablando de otro mercado. Una americana que cruza a Tijuana se confunde aún más.

Y lo peor: si tu clínica de Tijuana es una de las fuentes que el modelo podría haber citado pero no estaba escrita en español explícitamente mexicano, te pasa por encima y prefiere citar al sitio de Madrid que sí lo está. No porque sea mejor. Porque al modelo le suena más "español" de lo que le suena el tuyo.

El catálogo corto del vocabulario que importa

No es solo "vosotros versus ustedes". Es vocabulario operativo de los sectores en los que trabajamos. Lista breve, no completa, de las palabras donde el modelo defaultea a España y que para una clínica o inmobiliaria mexicana cuesta dinero:

Y los pronombres. Ustedes, nunca vosotros. Usted o según registro, nunca el voseo argentino. Es obvio para cualquier mexicano. No es obvio para el modelo que llena el hueco con lo que tiene a la mano.

La parte regulatoria, donde se vuelve peligroso

En medicina estética y turismo médico, el modelo que se equivoca de país inventa instituciones que no aplican. Lo hemos visto en tres auditorías separadas:

En inmobiliaria mexicana, las consecuencias son aún más concretas. Un comprador americano de Rosarito necesita entender el fideicomiso bancario (porque la zona restringida costera está regulada por el artículo 27 constitucional y la Ley de Inversión Extranjera, que requiere fideicomiso para extranjeros en la franja de 50 km de costa). Si el modelo improvisa una respuesta peninsular, le habla del NIE español, del IBI, del régimen catalán, de la Ley Hipotecaria española. Todo correcto en Madrid. Todo inútil —y potencialmente confuso al punto de matar una venta— en Rosarito.

El equipo de Search Engine Land lo bautizó "Global Spanish problem" en marzo de 2026. Buen nombre. Mejor que "sesgo léxico geográfico". Lo adoptamos.

Lo que no nos funcionó

Cuando empezamos a auditar contenido para clientes mexicanos hace siete meses, lo primero que probamos fue agregarle al sistema un disclaimer en el header del sitio: "Este sitio está optimizado para el mercado mexicano." Pensábamos que el modelo iba a leerlo y ajustar. Fue tiempo perdido. El modelo no funciona como un humano leyendo un cartel; agarra fragmentos de la página, los pesa por densidad y autoridad léxica, y compone una respuesta. Un disclaimer en el header no movió la aguja. Lo confirmamos midiendo citaciones antes y después en cinco consultas de prueba.

Lo segundo que probamos: traducir el contenido al español de Madrid para "ver si así se posicionaba mejor en respuestas peninsulares" y atrapar también ese mercado. Idea malísima. Las clínicas mexicanas que escribieron en español peninsular —con piso, móvil, coste, vosotros— terminaron desapareciendo de las respuestas a consultas explícitamente mexicanas, sin ganar nada en las españolas porque sus dominios .com.mx y sus señales geográficas seguían apuntando a México. Quedaron en tierra de nadie. Tres meses para revertirlo.

La lección, escrita en grande: el modelo lee el texto y la señal geográfica juntas. Si una contradice a la otra, el modelo te ignora. Coherencia o silencio.

La oportunidad: ser agresivamente mexicano

Aquí está la inversión. Si el modelo defaultea a peninsular cuando el contenido es neutral, entonces escribir contenido explícitamente mexicano gana visibilidad por defecto en cualquier consulta con intención mexicana. Y la mayoría de los sitios mexicanos de servicios profesionales que vemos están escritos en una variedad neutra y blanqueada, escrita por copywriters que aprendieron a "evitar regionalismos" para "alcanzar mercados latinos". Eso era prudente en 2018 para Google. En 2026 para ChatGPT es darse un tiro en el pie.

Lo que recomendamos como spec mínima de copy regionalmente explícito para una página de servicio mexicana que aspira a ser citada por un modelo cuando la consulta es mexicana:

Nada de esto es caro. Es una decisión de redacción. Cuesta lo que cuesta sentarse a reescribir las páginas de servicio con disciplina regional. Una tarde por servicio si el redactor sabe lo que está haciendo. Una semana si está aprendiendo.

Por qué la ventana se cierra rápido

Los modelos están mejorando. GPT-4o ya distingue mejor variedades del español que GPT-3.5, según los estudios recientes de la comunidad de variación lingüística en NLP. En dos años, probablemente, los modelos infieran geografía con suficiente precisión para que el contenido neutral mexicano les baste. Hoy no. Hoy hay una ventana en la que escribir explícitamente mexicano gana citaciones por un margen alto, porque hay poquísimo contenido profesional mexicano que lo haga deliberadamente.

Cualquier clínica o inmobiliaria mexicana que se pone seria con esto entre 2026 y 2027 entra al hueco antes de que se cierre. Cualquiera que espera a que sea obvio llega cuando ya estamos compitiendo contra todos los demás que también se dieron cuenta. Es la misma curva que el SEO de 2010 con keywords largas, solo que esta vez la palanca no es el ranking, es la cita.

No promete nada en treinta días. Estos cambios se notan en métricas de citación en seis a doce semanas, igual que el resto de las tácticas GEO. Lo notable aquí es que el techo —el porcentaje de respuestas mexicanas que tu sitio puede ganar contra contenido genérico— es alto, porque la competencia real es bajísima. Todavía.

El modelo no va a aprender por ti que tu clínica está en Tijuana y no en Toledo. Se lo tienes que escribir. En palabras que solo se usan en tu lado del Atlántico.