El cuello de botella que nadie quería admitir: la ingesta de documentos
Cuando hablamos de optimizar sistemas RAG, el primer instinto es tocar los embeddings, cambiar el modelo de reranking o ajustar el prompt que se envía al LLM. Tiene sentido, son las partes más visibles del pipeline. Pero existe una etapa anterior que define el destino de todo lo que viene después, y suele tratarse con negligencia: la document ingestion. Es en esta fase donde el documento original — un PDF, una hoja de cálculo, un informe financiero con tablas, encabezados y notas al pie — se transforma en fragmentos de texto plano. Y es justamente aquí donde la mayoría de las implementaciones pierde contexto, mezcla secciones que no deberían estar juntas y fragmenta tablas de una forma que ningún modelo de lenguaje puede reconstruir después.
POMA AI, startup berlinesa enfocada en inteligencia documental, decidió atacar este problema de frente. En lugar de tratar el chunking como una etapa genérica de corte por número de caracteres o tokens, la empresa desarrolló un enfoque que preserva la jerarquía estructural del documento durante todo el proceso de segmentación. Como resumió el Dr. Alexander Kihm, fundador y CEO de POMA AI: todo sistema RAG en producción hoy pierde información antes incluso de que el modelo la vea. Según él, la industria ha optimizado embeddings, rerankers e ingeniería de prompt, pero la capa de ingesta es donde la mayoría de los fallos de retrieval realmente se originan.
POMA-OfficeQA: el benchmark que pone números al problema
El resultado de este enfoque acaba de obtener cifras concretas con la publicación de POMA-OfficeQA, un benchmark open source disponible en GitHub que evalúa la calidad del RAG Chunking en documentos reales del Tesoro de los Estados Unidos. Son aproximadamente 2.150 páginas distribuidas en 14 boletines financieros oficiales del U.S. Treasury, con toda la complejidad que este tipo de material conlleva: tablas densas, jerarquías de títulos, referencias cruzadas entre secciones y formato que varía de página en página.
El benchmark no compara modelos de lenguaje diferentes ni cambia el mecanismo de búsqueda vectorial. Mantiene todo igual — mismos embeddings, misma lógica de retrieval, mismas 20 preguntas de consulta en tablas — y cambia únicamente el método de chunking. Esto aísla el impacto real de la forma en que el documento se segmenta, eliminando variables que podrían confundir el análisis. Las tres aproximaciones probadas utilizaron el modelo text-embedding-3-large de OpenAI para embeddings y similitud por coseno para el ranking de retrieval.
La métrica central del benchmark es el context recall, que mide el presupuesto mínimo de tokens que un sistema de retrieval necesita para garantizar que toda la evidencia necesaria esté disponible en el contexto recuperado. El ground truth se estableció usando índices de chunks exactos verificados contra los documentos originales, eliminando falsos positivos de coincidencias numéricas accidentales. Además, solo se incluyeron en la comparación preguntas que las tres aproximaciones lograron responder, y las preguntas en las que cualquier método presentó fallos de extracción — como errores de OCR o valores ausentes — se excluyeron para garantizar una comparación justa.
Y lo que muestran los números es bastante revelador. El enfoque jerárquico y estructuralmente consciente de POMA AI alcanzó los mismos niveles de calidad en las respuestas usando una fracción de los recursos:
- Baseline (chunking ingenuo con 500 tokens y 100 de overlap): 1,45 millones de tokens
- Unstructured.io (extracción por elementos): 1,48 millones de tokens
- POMA AI (chunking con consciencia estructural): 340 mil tokens
Esto representa una reducción de tokens del 77% en la configuración estándar, sin sacrificio alguno en la precisión de las respuestas. Y la cifra sube al 83% de reducción cuando se aplican configuraciones personalizadas al POMA PrimeCut, la herramienta de la empresa responsable del procesamiento.
Qué es el chunking con consciencia estructural y por qué cambia las reglas del juego
El concepto de chunking estructuralmente consciente parte de una premisa simple pero poderosa: los documentos no son bloques homogéneos de texto. Poseen una arquitectura interna — títulos, subtítulos, párrafos, tablas, listas, notas — y esa arquitectura contiene información semántica que el chunking tradicional simplemente ignora.
Cuando segmentas un PDF de 50 páginas en bloques de 512 tokens sin considerar dónde comienzan y terminan las secciones, estás destruyendo relaciones de contexto que el autor del documento construyó intencionalmente. Una tabla que muestra datos trimestrales de ingresos puede acabar dividida en dos chunks diferentes, y ninguno de ellos tendrá sentido por sí solo. Un párrafo que explica una excepción regulatoria puede separarse del título de la sección que le da contexto, volviendo la información ambigua o incluso inútil para el modelo de lenguaje que generará la respuesta final.
Cómo POMA AI trata el documento antes de segmentarlo
POMA AI aborda este problema tratando el documento como una estructura en árbol antes de cualquier segmentación. Primero, el sistema identifica la jerarquía del contenido — qué texto pertenece a qué sección, qué tablas están asociadas a qué párrafos, dónde comienzan y terminan los bloques lógicos de información. Solo después de este análisis estructural es cuando el chunking ocurre, respetando los límites naturales del documento.
En la práctica, esto significa que un chunk nunca va a cortar una tabla por la mitad, nunca va a separar un título del contenido que introduce y nunca va a mezclar información de secciones diferentes en un mismo bloque. El resultado es un conjunto de chunks más pequeño, más cohesivo y semánticamente más rico. Y es exactamente por eso que el pipeline logra funcionar con muchos menos tokens: cada chunk contiene más información útil y menos ruido, así que el sistema necesita recuperar menos bloques para responder la misma pregunta con la misma calidad.
La propia empresa describe su enfoque como smart hierarchical chunking, enfatizando que esta preparación de datos es la forma ideal de alimentar embeddings en bases de datos vectoriales. En lugar de enviar al modelo de embedding fragmentos desconectados y esperar que la similitud vectorial resuelva el problema, la estrategia garantiza que cada vector represente una unidad de información coherente y autocontenida.
Validación abierta y reproducible
Esta idea no es totalmente nueva en la literatura de procesamiento de documentos, pero la ejecución de POMA AI a escala de producción y con validación mediante benchmark abierto es un diferencial importante. La comunidad de RAG ya discutía desde hace tiempo que el chunking por tamaño fijo era una limitación seria, pero faltaban datos públicos y reproducibles para cuantificar el impacto real de alternativas más sofisticadas.
POMA-OfficeQA llena ese vacío y ofrece una base concreta para que otros equipos y empresas puedan comparar sus propias estrategias de document ingestion contra un baseline estructurado. Cualquier persona puede descargar el benchmark en GitHub, ejecutarlo con su propio pipeline y verificar dónde están los cuellos de botella de su sistema. Este nivel de apertura es poco común cuando se trata de benchmarks corporativos y tiende a generar confianza en la comunidad técnica.
El impacto práctico de la reducción de tokens a escala empresarial
Reducir un 77% de los tokens en un pipeline RAG no es solo una métrica bonita en un paper — es dinero, latencia y viabilidad operativa. Quien trabaja con RAG en entornos corporativos sabe que el costo de las llamadas de API a modelos de lenguaje es directamente proporcional al número de tokens procesados. Si estás ejecutando miles de consultas por día sobre bases documentales extensas, como contratos, informes regulatorios o manuales técnicos, la diferencia entre enviar 1,45 millones de tokens y 340 mil tokens al modelo es enorme en la factura mensual.
Estamos hablando de una reducción que puede hacer económicamente viable un caso de uso que antes simplemente no cuadraba en los números. Además del costo financiero, está la ganancia en latencia: menos tokens significa menos tiempo de procesamiento tanto en la etapa de retrieval como en la generación de la respuesta, lo que se traduce en una experiencia de usuario significativamente más fluida.
El problema del contexto largo y la ventaja indirecta
Existe también una dimensión técnica que muchas veces pasa desapercibida. Los modelos de lenguaje tienen ventanas de contexto limitadas, e incluso los modelos más recientes con ventanas de 128 mil o 200 mil tokens presentan degradación de calidad cuando el contexto es muy largo. Es el famoso problema del lost in the middle, donde la información ubicada en el centro de un contexto extenso tiende a ser ignorada o infrautilizada por el modelo.
Al reducir drásticamente el volumen de tokens enviados, el RAG Chunking estructural de POMA AI no solo ahorra recursos, sino que también aumenta la probabilidad de que la información relevante esté en una posición favorable dentro de la ventana de contexto. En otras palabras, el modelo recibe menos contenido, pero de calidad superior, y logra aprovecharlo mejor a la hora de generar la respuesta. Esto crea un efecto compuesto: menos costo, menor latencia y mayor calidad de output, todo al mismo tiempo.
La visión del inversor sobre la ventaja estructural
Till Faida, cofundador de AdBlock e inversor y consejero de POMA AI, reforzó este punto al comentar sobre el benchmark. Según él, lo que le convenció respecto a POMA fue el rigor de ingeniería detrás de una percepción aparentemente simple. Faida destacó que la empresa fue directamente a la capa de ingesta, justamente la parte del pipeline que todo el mundo asume como un problema resuelto. Para él, una reducción del 77% en los tokens cambia la economía de ejecutar RAG a escala empresarial, y ese es el tipo de ventaja estructural que se busca al invertir.
Quién se beneficia directamente de esta tecnología
Para empresas que están escalando sus operaciones de inteligencia documental — bancos procesando contratos, aseguradoras analizando pólizas, despachos de abogados revisando jurisprudencia, departamentos de compliance navegando regulaciones — esta combinación de beneficios puede ser transformadora. Cualquier organización que maneje grandes volúmenes de documentos estructurados y necesite extraer respuestas precisas con costo controlado está directamente en el perfil de quien gana con esta evolución.
POMA AI posiciona su solución exactamente en ese nicho, ofreciendo una capa de document ingestion que entiende la estructura antes de segmentar. El hecho de que el benchmark sea open source también señala una estrategia inteligente de construcción de comunidad y credibilidad técnica. En lugar de pedir que el mercado confíe en métricas internas, la empresa invita a cualquiera a reproducir los resultados y desafiar la metodología.
Este nivel de transparencia tiende a acelerar la adopción, especialmente entre equipos de ingeniería que necesitan justificar decisiones técnicas con datos concretos ante sus directivos. No se trata de una promesa abstracta de mejora — existe un repositorio público con código, datos y resultados que cualquier equipo puede auditar antes de tomar una decisión.
Qué significa esto para el futuro del RAG
El lanzamiento de POMA-OfficeQA pone en evidencia una discusión que estaba madura pero carecía de validación cuantitativa: la capa de ingesta de documentos necesita tanta atención como los modelos de lenguaje y las estrategias de retrieval. Durante mucho tiempo, el foco de la comunidad estuvo en los componentes más sofisticados del pipeline — fine-tuning de embeddings, algoritmos de reranking, ingeniería de prompt avanzada — mientras que el chunking se trataba casi como una formalidad. Cortar el texto cada 500 tokens con 100 de overlap se consideraba suficiente.
Los datos del benchmark demuestran que suficiente puede significar desperdiciar más de tres cuartas partes de los recursos computacionales. Y ese desperdicio no es solo financiero — se manifiesta en respuestas menos precisas, mayor latencia y una experiencia de usuario inferior. El mensaje es claro: antes de invertir en modelos más caros o en técnicas de retrieval más complejas, vale la pena mirar cómo se están preparando los documentos para entrar en el pipeline.
El enfoque de POMA AI con POMA PrimeCut demuestra que tratar el documento como una estructura jerárquica — y no como un bloque monolítico de texto — genera ganancias que se propagan por toda la cadena. Es el tipo de optimización que trabaja a favor de todos los demás componentes, en lugar de competir con ellos. El chunking estructuralmente consciente aplicado al procesamiento de documentos dejó de ser un concepto teórico y ganó validación práctica con números que cualquier ingeniero puede verificar por su cuenta 🚀
