Compartilhar:

O gargalo que ninguém queria admitir: a ingestão de documentos

Quando a gente fala em otimizar sistemas RAG, o primeiro instinto é mexer nos embeddings, trocar o modelo de reranking ou ajustar o prompt que vai para o LLM. Faz sentido, são as partes mais visíveis da pipeline. Mas existe uma etapa anterior que define o destino de tudo o que vem depois, e ela costuma ser tratada com negligência: a document ingestion. É nessa fase que o documento original — um PDF, uma planilha, um relatório financeiro com tabelas, cabeçalhos e notas de rodapé — é transformado em pedaços de texto puro. E é justamente aqui que a maioria das implementações perde contexto, mistura seções que não deveriam estar juntas e fragmenta tabelas de um jeito que nenhum modelo de linguagem consegue reconstruir depois.

A POMA AI, startup berlinense focada em inteligência documental, resolveu atacar esse problema de frente. Em vez de tratar o chunking como uma etapa genérica de recorte por número de caracteres ou tokens, a empresa desenvolveu uma abordagem que preserva a hierarquia estrutural do documento durante todo o processo de fatiamento. Como resumiu o Dr. Alexander Kihm, fundador e CEO da POMA AI: todo sistema RAG em produção hoje perde informação antes mesmo de o modelo enxergá-la. Segundo ele, a indústria tem otimizado embeddings, rerankers e engenharia de prompt, mas a camada de ingestão é onde a maioria das falhas de retrieval realmente se origina.

POMA-OfficeQA: o benchmark que coloca números no problema

O resultado dessa abordagem acaba de ganhar números concretos com a publicação do POMA-OfficeQA, um benchmark open source disponível no GitHub que avalia a qualidade do RAG Chunking em documentos reais do Tesouro dos Estados Unidos. São aproximadamente 2.150 páginas distribuídas em 14 boletins financeiros oficiais do U.S. Treasury, com toda a complexidade que esse tipo de material carrega: tabelas densas, hierarquias de títulos, referências cruzadas entre seções e formatação que varia de página para página.

O benchmark não compara modelos de linguagem diferentes nem troca o mecanismo de busca vetorial. Ele mantém tudo igual — mesmos embeddings, mesma lógica de retrieval, mesmas 20 perguntas de consulta em tabelas — e muda apenas o método de chunking. Isso isola o impacto real da forma como o documento é fatiado, eliminando variáveis que poderiam confundir a análise. Todas as três abordagens testadas utilizaram o modelo text-embedding-3-large da OpenAI para embeddings e similaridade por cosseno para o ranking de retrieval.

A métrica central do benchmark é o context recall, que mede o orçamento mínimo de tokens que um sistema de retrieval precisa para garantir que toda a evidência necessária esteja disponível no contexto recuperado. O ground truth foi estabelecido usando índices de chunks exatos verificados contra os documentos originais, eliminando falsos positivos de correspondências numéricas acidentais. Além disso, apenas perguntas que todas as três abordagens conseguiram responder foram incluídas na comparação, e questões em que qualquer método apresentou falhas de extração — como erros de OCR ou valores ausentes — foram excluídas para garantir uma comparação justa.

E o que os números mostram é bastante revelador. A abordagem hierárquica e estruturalmente consciente da POMA AI alcançou os mesmos patamares de qualidade nas respostas usando uma fração dos recursos:

  • Baseline (chunking ingênuo com 500 tokens e 100 de overlap): 1,45 milhão de tokens
  • Unstructured.io (extração por elementos): 1,48 milhão de tokens
  • POMA AI (chunking com consciência estrutural): 340 mil tokens

Isso representa uma redução de tokens de 77% na configuração padrão, sem qualquer sacrifício na precisão das respostas. E o número sobe para 83% de redução quando configurações customizadas são aplicadas ao POMA PrimeCut, a ferramenta da empresa responsável pelo processamento.

Um guia prático para avaliar, comparar e implementar inteligência artificial com clareza — sem desperdício de tempo ou dinheiro.

Pare de contratar ferramentas sem direção. Criamos um método estruturado para decidir qual IA realmente faz sentido para o seu negócio.

Entrega em PDF no seu e-mail · Sem spam · LGPD

🔒 Seus dados são protegidos conforme a LGPD. Você pode descadastrar a qualquer momento.

O que é chunking com consciência estrutural e por que ele muda o jogo

O conceito de chunking estruturalmente consciente parte de uma premissa simples, mas poderosa: documentos não são blocos homogêneos de texto. Eles possuem uma arquitetura interna — títulos, subtítulos, parágrafos, tabelas, listas, notas — e essa arquitetura carrega informação semântica que o chunking tradicional simplesmente ignora.

Quando você fatia um PDF de 50 páginas em blocos de 512 tokens sem considerar onde começam e terminam as seções, você está destruindo relações de contexto que o autor do documento construiu intencionalmente. Uma tabela que mostra dados trimestrais de receita pode acabar dividida em dois chunks diferentes, e nenhum deles vai fazer sentido sozinho. Um parágrafo que explica uma exceção regulatória pode ser separado do título da seção que dá contexto a ele, tornando a informação ambígua ou até inútil para o modelo de linguagem que vai gerar a resposta final.

Como a POMA AI trata o documento antes de fatiar

A POMA AI aborda esse problema tratando o documento como uma estrutura em árvore antes de qualquer fatiamento. Primeiro, o sistema identifica a hierarquia do conteúdo — qual texto pertence a qual seção, quais tabelas estão associadas a quais parágrafos, onde começam e terminam os blocos lógicos de informação. Só depois dessa análise estrutural é que o chunking acontece, respeitando os limites naturais do documento.

Na prática, isso significa que um chunk nunca vai cortar uma tabela pela metade, nunca vai separar um título do conteúdo que ele introduz e nunca vai misturar informações de seções diferentes em um mesmo bloco. O resultado é um conjunto de chunks menor, mais coeso e semanticamente mais rico. E é exatamente por isso que a pipeline consegue funcionar com muito menos tokens: cada chunk carrega mais informação útil e menos ruído, então o sistema precisa recuperar menos blocos para responder a mesma pergunta com a mesma qualidade.

A própria empresa descreve sua abordagem como smart hierarchical chunking, enfatizando que essa preparação de dados é a forma ideal de alimentar embeddings em bancos de dados vetoriais. Em vez de empurrar para o modelo de embedding fragmentos desconectados e esperar que a similaridade vetorial resolva o problema, a estratégia garante que cada vetor represente uma unidade de informação coerente e autocontida.

Validação aberta e reproduzível

Essa ideia não é totalmente nova na literatura de processamento de documentos, mas a execução da POMA AI em escala de produção e com validação via benchmark aberto é um diferencial importante. A comunidade de RAG já discutia há algum tempo que o chunking por tamanho fixo era uma limitação séria, mas faltavam dados públicos e reproduzíveis para quantificar o impacto real de alternativas mais sofisticadas.

O POMA-OfficeQA preenche essa lacuna e oferece uma base concreta para que outros times e empresas possam comparar suas próprias estratégias de document ingestion contra um baseline estruturado. Qualquer pessoa pode baixar o benchmark no GitHub, rodar com sua própria pipeline e verificar onde estão os gargalos do seu sistema. Esse nível de abertura é raro quando se trata de benchmarks corporativos e tende a gerar confiança na comunidade técnica.

O impacto prático da redução de tokens em escala empresarial

Reduzir 77% dos tokens em uma pipeline RAG não é apenas uma métrica bonita em um paper — é dinheiro, latência e viabilidade operacional. Quem trabalha com RAG em ambiente corporativo sabe que o custo das chamadas de API para modelos de linguagem é diretamente proporcional ao número de tokens processados. Se você está rodando milhares de consultas por dia sobre bases documentais extensas, como contratos, relatórios regulatórios ou manuais técnicos, a diferença entre enviar 1,45 milhão de tokens e 340 mil tokens para o modelo é gigantesca na fatura mensal.

Estamos falando de uma redução que pode tornar viável economicamente um caso de uso que antes simplesmente não fechava conta. Além do custo financeiro, existe o ganho de latência: menos tokens significa menos tempo de processamento tanto na etapa de retrieval quanto na geração da resposta, o que se traduz em uma experiência de usuário significativamente mais fluida.

O problema do contexto longo e a vantagem indireta

Existe também uma dimensão técnica que muitas vezes passa despercebida. Modelos de linguagem possuem janelas de contexto limitadas, e mesmo os modelos mais recentes com janelas de 128 mil ou 200 mil tokens apresentam degradação de qualidade quando o contexto é muito longo. É o famoso problema do lost in the middle, onde informações posicionadas no meio de um contexto extenso tendem a ser ignoradas ou subutilizadas pelo modelo.

Ao reduzir drasticamente o volume de tokens enviados, o RAG Chunking estrutural da POMA AI não apenas economiza recursos, mas também aumenta a probabilidade de que a informação relevante esteja em uma posição favorável dentro da janela de contexto. Em outras palavras, o modelo recebe menos conteúdo, mas de qualidade superior, e consegue aproveitá-lo melhor na hora de gerar a resposta. Isso cria um efeito composto: menos custo, menor latência e maior qualidade de output, tudo ao mesmo tempo.

A visão do investidor sobre a vantagem estrutural

Till Faida, cofundador do AdBlock e investidor e conselheiro da POMA AI, reforçou esse ponto ao comentar sobre o benchmark. Segundo ele, o que convenceu a respeito da POMA foi o rigor de engenharia por trás de uma percepção aparentemente simples. Faida destacou que a empresa foi atrás da camada de ingestão, justamente a parte da pipeline que todo mundo assume ser um problema resolvido. Para ele, uma redução de 77% nos tokens muda a economia de rodar RAG em escala empresarial, e esse é o tipo de vantagem estrutural que se busca ao investir.

Quem se beneficia diretamente dessa tecnologia

Para empresas que estão escalando suas operações de inteligência documental — bancos processando contratos, seguradoras analisando apólices, escritórios de advocacia revisando jurisprudência, departamentos de compliance navegando regulamentações — essa combinação de benefícios pode ser transformadora. Qualquer organização que lide com grandes volumes de documentos estruturados e precise extrair respostas precisas com custo controlado está diretamente no perfil de quem ganha com essa evolução.

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

A POMA AI posiciona sua solução exatamente nesse nicho, oferecendo uma camada de document ingestion que entende a estrutura antes de fatiar. O fato de o benchmark ser open source também sinaliza uma estratégia inteligente de construção de comunidade e credibilidade técnica. Em vez de pedir que o mercado confie em métricas internas, a empresa convida qualquer um a reproduzir os resultados e desafiar a metodologia.

Esse nível de transparência tende a acelerar a adoção, especialmente entre times de engenharia que precisam justificar escolhas técnicas com dados concretos perante seus gestores. Não se trata de uma promessa abstrata de melhoria — existe um repositório público com código, dados e resultados que qualquer equipe pode auditar antes de tomar uma decisão.

O que isso significa para o futuro do RAG

O lançamento do POMA-OfficeQA coloca em evidência uma discussão que estava madura mas carecia de validação quantitativa: a camada de ingestão de documentos precisa de tanta atenção quanto os modelos de linguagem e as estratégias de retrieval. Durante muito tempo, o foco da comunidade esteve nos componentes mais sofisticados da pipeline — fine-tuning de embeddings, algoritmos de reranking, engenharia de prompt avançada — enquanto o chunking era tratado quase como uma formalidade. Cortar o texto a cada 500 tokens com 100 de overlap era considerado bom o suficiente.

Os dados do benchmark mostram que bom o suficiente pode significar desperdiçar mais de três quartos dos recursos computacionais. E esse desperdício não é apenas financeiro — ele se manifesta em respostas menos precisas, maior latência e uma experiência de usuário inferior. A mensagem é clara: antes de investir em modelos mais caros ou em técnicas de retrieval mais complexas, vale a pena olhar para como os documentos estão sendo preparados para entrar na pipeline.

A abordagem da POMA AI com o POMA PrimeCut mostra que tratar o documento como uma estrutura hierárquica — e não como um bloco monolítico de texto — gera ganhos que se propagam por toda a cadeia. É o tipo de otimização que trabalha a favor de todos os outros componentes, em vez de competir com eles. O chunking estruturalmente consciente aplicado ao processamento de documentos deixou de ser um conceito teórico e ganhou validação prática com números que qualquer engenheiro pode verificar por conta própria 🚀

Foto de Rafael

Rafael

Operações

Transformo processos internos em máquinas de entrega — garantindo que cada cliente da Método Viral receba atendimento premium e resultados reais.

Preencha o formulário e nossa equipe entrará em contato em até 24 horas.

Publicações relacionadas

Vigilância com IA: contrato entre Anthropic e Pentágono desmorona

Como o acordo Anthropic-Pentágono desmoronou e a OpenAI fechou parceria relâmpago com o Pentágono, gerando polêmica e debate sobre IA

App Store: Claude da Anthropic lidera e enfrenta erros de IA

Claude dispara ao topo da App Store após Anthropic rejeitar uso militar da IA; corrida por downloads expõe debate ético

Receba o melhor conteúdo de inovação em seu e-mail

Todas as notícias, dicas, tendências e recursos que você procura entregues na sua caixa de entrada.

Ao assinar a newsletter, você concorda em receber comunicações da Método Viral. A gente se compromete a sempre proteger e respeitar sua privacidade.

Rafael

Online

Atendimento

Calculadora Preço de Sites

Descubra quanto custa o site ideal para seu negócio

Páginas do Site

Quantas páginas você precisa?

4

Arraste para selecionar de 1 a 20 páginas

📄

⚡ Em apenas 2 minutos, descubra automaticamente quanto custa um site em 2026 sob medida para o seu negócio

👥 Mais de 0+ empresas já calcularam seu orçamento

Fale com um consultor

Preencha o formulário e nossa equipe entrará em contato.