Viagem ao centro do raciocínio simulado

28/01/2026

Imprimir

Viaje al centro del razonamiento simulado

Na primeira publicação desta série defendemos uma ideia simples: os grandes modelos de linguagem (LLM) brilham quando conseguem reconhecer e recombinar padrões que já viram, mas revelam fragilidades quando lhes pedimos que encontrem uma nova regra em terreno pouco familiar. Este segundo artigo aprofunda essas ideias para compreender, com a devida calma, os limites e os desafios associados à futura Inteligência Artificial Geral (AGI). Para tal, é necessário perceber o que significa, afinal, “pensar” para uma IA, e porque é que, por vezes, parece fazê-lo já hoje.

Para responder sem complicações, vamos refletir sobre duas formas de resolver problemas. A primeira consiste em reconhecer um padrão depois de o termos estudado e memorizado, como quando seguimos uma receita passo a passo, sem inventar nada. A segunda exige explorar, experimentar, errar e, com alguma sorte, descobrir uma nova regra que nos permita poupar esforço. Chamaremos reutilização de padrões ao ato de reconhecer a forma do problema, preencher as lacunas e produzir uma resposta coerente; e descoberta ao processo de explorar alternativas, descartar com critério, verificar passos intermédios e, eventualmente, encontrar uma nova regra que torne o problema tratável. A primeira explica muitos sucessos diários da IA; a segunda é aquilo que tendemos a associar a: “pensar profundamente”.

Nem sempre é fácil distinguir entre as duas abordagens quando nos fixamos apenas no resultado. Um modelo LLM pode acertar por simples familiaridade com exercícios similares, ao encaixar peças de forma eficaz e, visto de fora, dar a impressão de que “raciocinou” de forma profunda. Então, como sabemos se um modelo está realmente a “descobrir” algo enquanto responde, e não apenas a “recordar”? A tentação é recorrer a listas de perguntas difíceis e medir o número de respostas certas, mas esse método pode ser enganador. Se o teste se assemelhar demasiado ao que já circula pela internet — de onde muitos LLM retiram grande parte dos seus dados de treino —, o modelo pode destacar-se pelo que memorizou, e não por uma exploração “mental”.

Por isso, faz sentido valorizar não apenas se a resposta está correta, mas como se chega a ela. A ideia é simples e profundamente humana: se queremos saber se alguém domina realmente um tema, não lhe damos exatamente o exercício que já praticou, mas sim um semelhante com algo de diferente, e observamos como o soluciona. Com a IA acontece a mesma coisa. O que procuramos não é apenas uma resposta correta, mas indícios de um bom processo: que o sistema descarte hipóteses com critério, verifique o que afirma e seja capaz de corrigir o rumo quando erra. É neste contexto que, nos últimos meses, ganharam peso as avaliações em contextos interativos e mutáveis, que reduzem as vantagens de memorizar e exigem adaptação em tempo real. Um exemplo é o ARC-AGI-3, que constrói à medida que avança pequenos mundos completamente novos e mede a eficiência com que um agente adquire competências em cenários que não viu antes [1]. Além disso, o GAMEBoT avalia decisões ao longo de partidas e torna público o processo intermédio, o que ajuda a distinguir a estratégia real de simples sucessos pontuais [2].

Em paralelo, como referido no post anterior, foram propostas formas simples de “pensar” melhor durante a geração das respostas. Uma das mais acessíveis consiste em pedir ao modelo várias ideias em paralelo e selecionar a mais consistente. Esta técnica, conhecida como autoconsistência (self-consistency) baseia-se num princípio intuitivo: a resolução correta de um mesmo problema pode ser alcançada por caminhos diferentes, e comparar várias trajetórias reduz erros ocasionais e melhora a fiabilidade do resultado [3]. Outra abordagem, a árvore de pensamentos (Tree of Thoughts), propõe não seguir um único fio de pensamento, mas explorar ramificações, retroceder quando algo não faz sentido e consolidar o que funciona, tal como fazemos num problema de lápis e papel [4]. Em tarefas onde o espaço de opções cresce rapidamente, algumas propostas integram pesquisa em árvore MonteCarlo [5] para orientar essa exploração de forma mais estruturada e verificável, em vez de multiplicar cadeias de pensamento às cegas [6,7].

É precisamente nos problemas de rápido crescimento que se torna mais evidente a diferença entre repetir e descobrir. Imaginemos um labirinto que, em cada canto, se divide em três ou quatro novos corredores: com duas voltas é possível de gerir, com dez começa a sobrecarregar, com vinte transforma-se numa selva na qual as próprias árvores não nos deixam ver mais além. As pessoas sobrevivem graças a “atalhos”: descartamos corredores por intuição, procuramos sinais que nos orientem e recordamos padrões de outros labirintos. Um sistema automático também precisa desses “atalhos” para não se perder. Quando o modelo acerta, muitas vezes não é porque explorou tudo, mas porque alguém, no passado, descobriu uma forma eficaz de “podar” as possibilidades, selecionar caminhos promissores, e esse truque ficou “guardado” nos seus parâmetros. É aí que reside grande parte da eficácia prática dos LLM: reaproveitar boas ideias anteriores a uma velocidade vertiginosa.

Num patamar mais avançado, começam a surgir propostas para adaptar o modelo durante o próprio uso, quando o contexto assim o exige. Sob a designação de Test-Time Learning, várias investigações demonstram que é possível ajustar ligeiramente o comportamento destes sistemas com base nos dados que analisam no momento da execução, sem rótulos humanos e com alterações localizadas, com melhorias significativas quando há desajustes entre o que o modelo sabe e o que a situação concreta exige. A ideia passa por “aprender um pouco enquanto responde”, com mecanismos desenhados para não esquecer o que já estava correto [8,9]. Outra linha complementar combina geração e verificação no próprio processo de inferência: em vez de votar entre múltiplas cadeias de pensamento, treina-se ou orienta-se um verificador que ajuda a decidir melhor com o mesmo orçamento computacional [10,11].

Existem também limites práticos que não devem ser ignorados. Explorar em profundidade consome tempo e energia, no sentido literal. Pedir a um sistema que considere muitas hipóteses, que verifique sub passos e que mantenha memória do que já experimentou, implica um maior consumo de recursos computacionais. Não é nada dramático. Trata-se de uma escolha de conceção. Se o problema o justificar — como num diagnóstico médico, numa rota de missão complexa ou numa auditoria de segurança —, poderá fazer sentido “pagar” esse custo adicional em troca de um processo mais cuidadoso e exploratório. Se o problema for rotineiro e repetido — como escrever um e-mail, fazer um resumo ou uma tradução —, a opção mais sensata pode ser privilegiar a rapidez da reutilização de padrões. Não se trata de esperar milagres, mas de compreender o que realmente acontece sob a superfície para escolher bem a ferramenta para cada tarefa: saber quando nos basta uma ferramenta rápida e quando precisamos de uma que realmente explore.

Retomando o espírito do primeiro post, não faz sentido exigir que um martelo aparafuse; da mesma forma, não faz sentido vender um martelo como se fosse um conjunto infinito de ferramentas. Com os modelos de linguagem, a abordagem mais responsável é reconhecer o seu valor como aceleradores de tarefas com estrutura conhecida e, ao mesmo tempo, aceitar que pensar de forma plena implica explorar, verificar e, por vezes, aprender algo novo durante o próprio processo. Chamar “raciocínio” a tudo isto sem nuances gera confusão; negá-lo por completo também seria injusto. Acredito que a virtude está em clarificar expectativas.

No meu trabalho na GMV tento aplicar esse critério em projetos reais. Parte do meu trabalho é contribuir para que a IA evolua de forma útil e responsável em setores onde a fasquia de qualidade é bastante elevada. Neste artigo, partilho o que aprendi para que qualquer pessoa — desde quem está a começar até quem anda nisto há muitos anos — consiga distinguir entre brilho aparente e progresso real. Se esta série de textos ajudar a olhar para a IA com um pouco mais de serenidade num mundo saturado de hype, então já cumpriu a sua função. Na terceira entrega falarei de nós, de como o nosso próprio comportamento muda quando trabalhamos com estas ferramentas, e porque essa mudança merece tanta atenção quanto os próprios algoritmos.

Autor: David Miruat

REFERÊNCIAS:

[1] «ARC-AGI-3», ARC Prize. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://arcprize.org/arc-agi/3/

[2] W. Lin, J. Roberts, Y. Yang, S. Albanie, Z. Lu, y K. Han, «GAMEBoT: Transparent Assessment of LLM Reasoning in Games», en Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), W. Che, J. Nabende, E. Shutova, y M. T. Pilehvar, Eds., Vienna, Austria: Association for Computational Linguistics, jul. 2025, pp. 7656-7682. doi: 10.18653/v1/2025.acl-long.378.

[3] X. Wang et al., «Self-Consistency Improves Chain of Thought Reasoning in Language Models», 7 de marzo de 2023, arXiv: arXiv:2203.11171. doi: 10.48550/arXiv.2203.11171.

[4] S. Yao et al., «Tree of Thoughts: Deliberate Problem Solving with Large Language Models», 3 de diciembre de 2023, arXiv: arXiv:2305.10601. doi: 10.48550/arXiv.2305.10601.

[5] «Árbol de búsqueda Monte Carlo», Wikipedia, la enciclopedia libre. 21 de enero de 2021. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://es.wikipedia.org/w/index.php?title=%C3%81rbol_de_b%C3%BAsqueda_Monte_Carlo&oldid=132591437

[6] Y. Xie et al., «Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning», 17 de junio de 2024, arXiv: arXiv:2405.00451. doi: 10.48550/arXiv.2405.00451.

[7] Z. Gao et al., «Interpretable Contrastive Monte Carlo Tree Search Reasoning», 25 de diciembre de 2024, arXiv: arXiv:2410.01707. doi: 10.48550/arXiv.2410.01707.

[8] J. Hu et al., «Test-Time Learning for Large Language Models», 27 de mayo de 2025, arXiv: arXiv:2505.20633. doi: 10.48550/arXiv.2505.20633.

[9] Y. Sun, X. Wang, Z. Liu, J. Miller, A. Efros, y M. Hardt, «Test-Time Training with Self-Supervision for Generalization under Distribution Shifts», en Proceedings of the 37th International Conference on Machine Learning, PMLR, nov. 2020, pp. 9229-9248. Accedido: 25 de septiembre de 2025. [En línea]. Disponible en: https://proceedings.mlr.press/v119/sun20b.html

[10] Z. Liang, Y. Liu, T. Niu, X. Zhang, Y. Zhou, y S. Yavuz, «Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification», 5 de octubre de 2024, arXiv: arXiv:2410.05318. doi: 10.48550/arXiv.2410.05318.

[11] J. Qi, H. Tang, y Z. Zhu, «VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers», 10 de octubre de 2024, arXiv: arXiv:2410.08048. doi: 10.48550/arXiv.2410.08048.

Imprimir

Comentários

O seu nome

CAPTCHA

Esta questão é para testar se você é um visitante humano ou não a fim de prevenir submissões automáticas de spam.

Viagem ao centro do raciocínio simulado

Comentários

Texto simples

Related