HTML frente a Markdown para agentes de IA, y dónde encaja Google OKF (2026) | WPPoland

Mariusz Szatkowski

ES

Cómo servir contenido a agentes de IA: HTML frente a Markdown, y dónde encaja realmente OKF

Última verificación: 1 de julio de 2026

14 min de lectura

Opinión

PageSpeed 100/100

Datos Clave : Servir contenido a agentes de IA (HTML frente a Markdown frente a OKF)

1En junio de 2026 el debate profesional sobre servir contenido a agentes de IA confunde tres capas distintas, Markdown como salida del agente, Markdown-for-Agents como entrega de páginas y Open Knowledge Format como capa de conocimiento.
2El ingeniero de Anthropic Thariq Shihipar abandonó públicamente Markdown a favor de HTML para la salida del agente, porque HTML aporta una estructura más rica para la representación orientada a personas.
3John Mueller de Google calificó convertir páginas a Markdown para rastreadores como "a stupid idea", y Fabrice Canel de Bing dijo que Bing rastreará el HTML de todos modos para comprobar la similitud.
4Markdown-for-Agents de Cloudflare convierte HTML a Markdown sobre la marcha mediante la cabecera Accept text/markdown, informa de una reducción de tokens de alrededor del 80 por ciento y viene activado por defecto mediante Content-Signal.
5Google Cloud publicó el Open Knowledge Format el 12 de junio de 2026, archivos Markdown con frontmatter YAML, un concepto por archivo, solo el campo type es obligatorio.
6El HTML semántico, renderizado en servidor y limpio más Schema.org es la única señal de entrega que tanto Google como Bing documentan como consumida.
7La apuesta de futuro es la capa de acción del agente, WebMCP, A2A y MCP, donde un agente llama a una función en lugar de raspar una página.

Última actualización: 2026-06-21

#Introducción

En junio de 2026 la misma pregunta reaparece una y otra vez en las líneas de tiempo de ingeniería y en los canales de SEO: ¿cómo debería servir su contenido a los agentes de IA? ¿Markdown plano, porque parece que es lo que les gusta a los modelos? ¿Un endpoint de máquina aparte? ¿Un nuevo formato de conocimiento? La discusión es ruidosa, está cargada de opiniones, y en su mayoría habla sin entenderse.

Aquí va la postura del profesional por delante, porque nos jugamos algo en esto. Ya servimos HTML semántico, limpio y renderizado en servidor más Schema.org desde un frontend en Astro sobre Cloudflare. Este debate confirma esa elección. No la amenaza. Casi todo argumento del tipo “tienes que pasarte a Markdown para los agentes” se derrumba en cuanto separa tres capas que se amasan constantemente en una sola.

Esto no es un comentario desde la grada. En el mercado hispanohablante, donde muchos negocios llegan a la IA después de años de SEO clásico, operamos exactamente la infraestructura de la que trata el debate, y ya operamos la capa de agentes que el debate señala una y otra vez como el verdadero futuro. Así que esto es un informe desde dentro, no un resumen desde los asientos baratos.

#Conclusiones clave de un vistazo

El argumento confunde tres capas que no son el mismo problema: Markdown como salida del agente, Markdown como forma de servir páginas, y OKF como capa de conocimiento.
Markdown como salida del agente es una decisión de representación de máquina a persona, y una de las personas que más lo impulsó acaba de abandonarlo a favor de HTML.
Servir Markdown a los bots en la misma URL donde las personas reciben HTML es, en el mejor caso, redundante y, en el peor, cloaking. Google y Bing lo dijeron ambos, sin rodeos.
OKF es un formato de conocimiento curado para flujos de agentes, no un formato de entrega de sitios web. Es una capa distinta del SEO.
La única señal de entrega que tanto Google como Bing documentan como consumida de verdad es el HTML semántico limpio más Schema.
Observe, no se precipite a implementar, los nuevos formatos de entrega. La verdadera apuesta de futuro es la capa de acción del agente, y esa parte ya la hemos construido.

#Tres capas que todos confunden

Casi todo el calor de este debate viene de tratar tres preguntas separadas como una sola. Sepárelas y las contradicciones se disuelven.

#Capa 1: Markdown como salida del agente

Esto trata sobre lo que un modelo le devuelve a una persona, no sobre cómo se sirve un sitio web. Cuando un agente genera un informe, una respuesta de chat o un documento, ¿en qué formato debería emitirlo?

Durante mucho tiempo la respuesta por defecto fue Markdown. Es limpio, es barato en tokens, se representa bien en una burbuja de chat. Entonces Thariq Shihipar, que trabaja en Claude Code en Anthropic, se retractó públicamente. Tras construir ejemplos comparativos de la eficacia de HTML y Markdown, su conclusión fue que HTML gana para la salida del agente, porque HTML aporta la estructura, la semántica y la interactividad que necesita una superficie más rica orientada a personas. Markdown aplana demasiado.

Lea eso con atención, porque se cita rutinariamente al revés. La persona más cercana a la salida del agente se está moviendo hacia HTML, no alejándose de él. Y, lo decisivo, esta capa no dice nada sobre cómo debería servir su sitio de marketing a un rastreador. Es comunicación de máquina a persona. Quien cite a Thariq como razón para convertir su sitio a Markdown ha invertido su propio argumento.

#Capa 2: Markdown-for-Agents como entrega de páginas

Esta es la capa que de verdad nos toca, porque funcionamos sobre Cloudflare. El Markdown-for-Agents de Cloudflare convierte su HTML a Markdown sobre la marcha cuando un cliente envía Accept: text/markdown, anuncia un recuento de tokens mediante x-markdown-tokens e informa de una reducción de tokens de alrededor del 80 por ciento frente al HTML en bruto. Está en beta en los planes de pago, y clientes como Claude Code y OpenCode ya envían la cabecera. Lo gobierna Content-Signal, que en Cloudflare viene activado por defecto, así que esto puede estar en marcha en su dominio sin una decisión deliberada. Precisamente ese detalle del activado-por-defecto es lo que todo cliente de Cloudflare debería revisar.

El ahorro de tokens es real. La afirmación de visibilidad no lo es. No hay pruebas documentadas de que servir una representación en Markdown cambie si un sistema de IA le cita. Y en el momento en que sirve a los bots una representación distinta de la misma URL que reciben las personas, está justo al lado de la línea del cloaking.

John Mueller de Google lo dijo sin diplomacia alguna:

“Converting pages to markdown is such a stupid idea. Did you know LLMs can read images? WHY NOT TURN YOUR WHOLE SITE INTO AN IMAGE?”

Es sarcasmo con un punto dentro. Si el modelo ya puede leer su HTML, un canal Markdown paralelo no es una señal nueva, es una segunda cosa que mantener y mantener sincronizada. Fabrice Canel de Bing fue más seco y, sin duda, más demoledor para quien espere ahorrar presupuesto de rastreo:

“Really want to double crawl load? We’ll crawl anyway to check similarity.”

Dicho de otro modo, el motor de búsqueda obtiene el HTML de todas formas, para verificar que su Markdown coincide con lo que ven las personas. No reduce la carga, añade una superficie que tiene que coincidir con la canónica o le marcan. Dos de los mayores operadores de rastreo del planeta le dijeron, en público, que esto no hace lo que sus defensores esperan.

#Capa 3: OKF como capa de conocimiento

El 12 de junio de 2026 Google Cloud publicó el Open Knowledge Format, OKF, con un repositorio de referencia público. Es deliberadamente humilde: archivos Markdown con frontmatter YAML, un concepto por archivo, solo el campo type obligatorio, productor y consumidor mantenidos independientes. El planteamiento es “un formato, no una plataforma”, y debe una deuda evidente al gist de wiki para LLM de Andrej Karpathy, la idea de una base de conocimiento curada por personas y escrita para máquinas.

Esto es lo que importa y lo que los resúmenes pasan por alto: OKF no es una forma de servir su sitio web. Es una forma de empaquetar conocimiento curado para que un flujo de agentes pueda consumirlo. Vive aguas arriba de la recuperación, en la capa de contexto y fundamentación, no en la URL donde un rastreador se encuentra con su página. Como señaló Adam Rogala en un comentario de LinkedIn al anuncio, OKF tiene sentido, pero en una capa distinta del SEO. Confundir “Google lanzó un formato de conocimiento en Markdown” con “Google quiere que sirvas tu sitio como Markdown” es, con diferencia, el error más común del ciclo actual, y ni de lejos son lo mismo.

Existe una versión sensata de Markdown en un stack de publicación, y vale la pena nombrarla para que nadie entienda esto como anti-Markdown. Markdown en su código fuente, renderizado a HTML en el momento del build, es exactamente como está escrito este artículo. Ese es el sitio correcto para él. Enviar Markdown en bruto a un navegador, o a un rastreador que espera HTML, es la parte que no tiene sentido. Como subrayó Bartosz Łaszczewski en la misma discusión, el consumidor del otro extremo está construido alrededor del HTML, y enviar Markdown en bruto a un navegador va en contra de eso.

#Por qué este debate confirma nuestro stack

Separe las tres capas y la conclusión es casi aburrida, que es el punto. Lo que ya funciona sigue funcionando.

Servimos HTML semántico renderizado en servidor. Los encabezados son encabezados, las listas son listas, article, nav y time significan lo que dicen, y los datos estructurados son Schema.org de verdad en lugar de decoración. Esa es la representación que Google indexa, la representación que Bing rastrea y la representación que un LLM ingiere cuando obtiene la página. Es además, y no por casualidad, la representación que se renderiza rápido para las personas. No hay bifurcación que mantener sincronizada, ni un segundo canal que pueda desviarse, ni riesgo de cloaking.

Todo lo que inquieta al debate lo obtenemos gratis por no perseguirlo. Cuando Mueller dice que la conversión a Markdown es inútil porque el modelo lee su HTML, eso es una descripción de nuestra configuración funcionando como se pretende. Cuando Canel dice que Bing rastrea el HTML de todos modos, no pasa nada, porque el HTML es el artefacto canónico y no hay nada más que reconciliar. No tuvimos que reaccionar a ninguna de las dos declaraciones. La arquitectura ya las había respondido.

#La única señal documentada

Si quiere una regla que sobreviva al próximo anuncio de formato, aquí la tiene. El HTML semántico, renderizado en servidor y limpio con Schema.org válido es el único enfoque de entrega que tanto Google como Bing documentan como algo que de verdad consumen. Todo lo demás en este terreno es, o bien una propuesta sin consumo medido, o bien una optimización del coste en lugar de la visibilidad.

Bing, a través de Copilot, lee datos estructurados. Google lee datos estructurados para sus propias superficies. Los grandes modelos de lenguaje ingieren el HTML renderizado. Ninguno de los nuevos formatos de entrega, llms.txt, Markdown-for-Agents, ai.txt, tiene un efecto documentado sobre si le citan. Así que la postura honesta de ingeniería es: mantenga el HTML limpio, mantenga el Schema válido, y trate los nuevos formatos de entrega como algo que observar en lugar de implementar. La misma disciplina se aplica a un montaje headless de WooCommerce sobre Astro: los datos de comercio son marcado semántico real, no un canal lateral solo para bots.

#La opinión honesta sobre llms.txt

Publicamos /llms.txt y /llms-full.txt, así que esto es autocrítica, no un golpe barato a otro. Los escépticos tienen un argumento fuerte. Mueller ha dicho que el formato se ignora en esencia, y un estudio independiente de registros de servidor no encontró ninguna petición de rastreadores de IA por llms.txt en cientos de dominios a lo largo de varios meses. Como archivo aislado dejado en un sitio con la esperanza de que algo lo lea, hace muy poco.

Nuestro propio manual de visibilidad ante la IA dice exactamente eso, por escrito: ningún gran proveedor de LLM se compromete formalmente a leer estos archivos, pero aparecen en nuestros registros con la frecuencia suficiente como para justificar conservarlos. Sostenemos ambas ideas a la vez. Un llms.txt genérico y huérfano es casi peso muerto. El mismo archivo como un nodo de una configuración integrada de descubrimiento de agentes, conectado a una capa de acción real, es un objeto distinto con un perfil de coste y beneficio distinto. El error está en citar los estudios de “nadie lee llms.txt” como si zanjaran la cuestión para toda implementación. La zanjaron para el caso del archivo suelto.

#La verdadera apuesta de futuro: la capa de acción del agente

Aquí rompemos del todo con la cuadrilla del “sirve Markdown y ya”, y aquí está el futuro genuinamente interesante. El siguiente paso no es un documento mejor para que un agente lo lea. Es dejar que el agente actúe sin leer documento alguno.

Esa es la capa de acción del agente: WebMCP, Agent2Agent (A2A) y el Model Context Protocol. En vez de raspar una página de servicios y adivinar, un agente llama a una función, request_quote, browse_services, search_site, y obtiene una respuesta tipada. WebMCP, una colaboración entre Google y Microsoft, lleva en vista previa para desarrolladores de Chrome desde febrero de 2026, y apunta de lleno a este modelo: la página expone capacidades, el agente las invoca.

Esto ya lo hemos construido. Bajo public/.well-known/ publicamos un AgentCard A2A, una server-card MCP conforme a SEP-1649, un descriptor ACP y negociación de contenido en Markdown mediante un sufijo de URL .md y el manejo de Accept: text/markdown en el middleware, con todo ello anunciado mediante cabeceras Link y reglas robots. La capacidad fetch_markdown de nuestro AgentCard apunta a /llms-full.txt, que es precisamente por lo que los archivos llms no están huérfanos aquí, están conectados a la capa de acción en lugar de estar solos.

Por encima de todo esto hay una brecha de descubrimiento. OKF (Open Knowledge Format) empaqueta una base de conocimiento, pero deliberadamente no ayuda a nadie a encontrarla; Joost de Valk lo combina con ARD, Agentic Resource Discovery, un /.well-known/ai-catalog.json que enumera lo que ofrece un dominio y puede apuntar directamente a un paquete OKF. Nosotros ya publicamos uno. Nuestro ai-catalog.json indexa el corpus llms-full, el JSON de servicios y los descriptores A2A, MCP y UCP, cada uno con type y mediaType para compatibilidad entre especificaciones, además de consultas representativas. Lo tratamos igual que tratamos los otros formatos de entrega, observamos y lo probamos en nosotros mismos, sin ninguna afirmación de visibilidad y de forma explícita en fase de borrador: ARD y OKF están ambos en la versión v0.9 y los campos todavía pueden cambiar. Aun así se despliega, porque cuesta un único archivo estático y coloca los recursos que ya mantenemos detrás de un solo índice que un agente puede leer primero.

Fíjese en la asimetría. Markdown-for-Agents y la negociación de contenido, los formatos de entrega, los tratamos como observar-no-implementar, presentes porque la infraestructura los ofrece, no porque hayamos medido un beneficio. La capa de acción la tratamos como una inversión de futuro deliberada, porque esa es la dirección a la que apuntan el argumento de HTML de Thariq, WebMCP y toda la ola de herramientas para agentes. Leer es el presente. Actuar es la apuesta.

#Qué estamos haciendo en realidad

Para concretar la postura, aquí está el reparto.

Entrega: HTML semántico limpio más Schema.org, renderizado en servidor, rápido. Es la decisión que sostiene todo y no va a cambiar.
Markdown-for-Agents y Content-Signal: presentes en Cloudflare, dejados activados donde son inofensivos, pero revisados, porque el valor por defecto activado significa que puede estar en marcha sin una decisión. Sin ninguna afirmación de visibilidad asociada.
llms.txt y llms-full.txt: publicados, pero como nodos conectados del sistema de descubrimiento de agentes, no como una apuesta aislada, y descritos con honestidad en nuestro propio manual.
OKF: archivado bajo capa de conocimiento. Relevante si y cuando alimentemos conocimiento curado a un flujo de agentes. No es un cambio de entrega del sitio web.
Capa de acción del agente, A2A, MCP, adyacente a WebMCP: inversión deliberada, ya desplegada bajo /.well-known/, y la parte de todo este debate de la que estamos más seguros.

#Conclusión

El debate de 2026 sobre “HTML frente a Markdown para agentes” parece una bifurcación en el camino. No lo es. Una vez que separa la salida del agente de la entrega de páginas de la capa de conocimiento, los tres argumentos dejan de contradecirse y todos apuntan en la misma dirección. Sirva HTML semántico limpio y Schema válido, porque es la única señal cuyo consumo documentan ambos grandes rastreadores. Observe los nuevos formatos de entrega en lugar de perseguirlos, porque ninguno tiene un efecto medido sobre las citas. Y ponga su energía de futuro en la capa de acción del agente, porque ahí es donde leer se convierte en actuar.

No llegamos aquí prediciendo el debate. Llegamos aquí construyendo sobre la señal aburrida y documentada, y tratando todo lo más nuevo como algo que medir primero. Ese es todo el método. La parte ruidosa de internet discute sobre el formato. La respuesta callada y documentada no ha cambiado.

Si quiere el panorama de visibilidad más amplio, nuestro manual de visibilidad ante la IA y los LLM reúne el resto de las palancas por orden de prioridad.

Última actualización: 15 de junio de 2026.

Cómo servir contenido a agentes de IA: HTML frente a Markdown, y dónde encaja realmente OKF

#Introducción

#Conclusiones clave de un vistazo

#Tres capas que todos confunden

#Capa 1: Markdown como salida del agente

#Capa 2: Markdown-for-Agents como entrega de páginas

#Capa 3: OKF como capa de conocimiento

#Por qué este debate confirma nuestro stack

#La única señal documentada

#La opinión honesta sobre llms.txt

#La verdadera apuesta de futuro: la capa de acción del agente

#Qué estamos haciendo en realidad

#Conclusión

Transforma el artículo en una implementación real

Próximos pasos más relevantes

¿Quieres implementar esto en tu sitio?

Explora otros servicios WordPress y base de conocimiento

Categorías relacionadas

Artículos de apoyo

Preguntas Frecuentes

Artículos Relacionados

¿La IA renderiza JavaScript?

Schema.org para Búsqueda IA: Como Aparecer en ChatGPT, Perplexity y Google AI Mode

Por qué Perplexity cita tu marca y ChatGPT no

Mariusz Szatkowski