A SkyNet sonha com ovelhas elétricas?

14/10/2025

Imprimir

Nos últimos quatro anos, temos assistido a um progresso vertiginoso nos grandes modelos de linguagem (LLM). Para muitos — entre os quais me incluo —, os mais apelativos são os modelos que “pensam antes de responder”, capazes de gerar uma espécie de caminho intermédio no qual vão decidindo os passos para resolver uma tarefa. A ideia é sugestiva: se o modelo for capaz de “pensar”, talvez se aproxime mais de como nós, humanos, raciocinamos (e, quem sabe, nos ajude a compreender melhor os mecanismos das nossas próprias mentes). Mas convém contar esta história com calma e sem adornos. O que estes sistemas fazem bem, fazem-no muito bem; o que ainda não conseguem fazer, é igualmente importante conhecê-lo — para não nos deixarmos enganar.

No início do verão, foi publicado um trabalho de investigação da Apple [1] que originou uma discussão muito interessante. Os autores propuseram que, a partir de um certo limiar de dificuldade, os modelos LLM não só começavam a falhar mais, como também reduziam o seu “esforço de raciocínio”, mesmo quando ainda dispunham de margem de computação. Nas suas experiências, ao confrontá-los com quebra-cabeças conhecidos como as Torres de Hanói com muitos discos, parecia que o modelo “desistia” antes do tempo. A este comportamento chamaram-lhe fadiga antecipada. Após uma análise detalhada de revisores independentes, verificou-se que parte desse efeito podia ser explicada pela forma como os testes tinham sido concebidos: tarefas com muitos passos, em que um único erro compromete os seguintes, e com requisitos de memória (janela de contexto) superiores à capacidade que os LLM avaliados conseguiam processar de uma só vez. Nesse cenário, “render-se” rapidamente não era tanto uma emoção, mas uma consequência prática: é difícil persistir na tentativa de chegar ao fim quando se sabe que se vai perder pelo caminho.

Para além das nuances metodológicas, o artigo da Apple teve um efeito extremamente positivo: impulsionou a comunidade a medir melhor estas estratégias de “pensar em voz alta” e a explorar formas de as tornar mais fiáveis. Desde então, surgiram abordagens muito variadas. Algumas inspiram-se em hábitos humanos que funcionam connosco quando resolvemos problemas: dividir uma tarefa em pequenos passos (subpassos), comparar uma ideia com outra ou pedir uma segunda opinião antes de decidir. Outras exploram rotas menos intuitivas, como o treino por reforço, que recompensa comportamentos úteis mesmo quando não sabemos expressá-los verbalmente. Neste mapa cabem nomes como a OpenAI [2] e a Anthropic [3], com linhas mais “humanas”, e apostas como a da DeepSeek, que experimentam atalhos diferentes [4].

Uma lição útil das investigações publicadas nestes meses de verão é que, quando um modelo tenta raciocinar em cadeias muito longas, multiplica a probabilidade de cometer pequenos erros que, depois, se propagam. Por vezes, isto acontece porque o sistema se fixa numa explicação que soa bem e deixa de procurar alternativas — como se adquirisse uma espécie de “visão em túnel” [5]. Outras vezes, porque perde confiança no seu próprio “pensamento” [6], contradiz-se e acaba por escolher um caminho menos eficaz. Para mitigar este problema, tem-se tentado que o modelo gere várias “linhas de pensamento” em paralelo e depois selecione a mais promissora [7], ou uma combinação ponderada entre elas. Estes mecanismos melhoram os resultados em muitos casos, embora tornem o processo computacionalmente mais exigente. Nesta exploração científica, apercebemo-nos também de outro problema conhecido: a facilidade com que os modelos “inventam” detalhes. Não o fazem por malícia, mas porque aprenderam que, na ausência de dados, completar uma frase com algo plausível costuma ser melhor do que não dizer nada [8] — fenómeno a que chamamos alucinações e que pode mesmo tornar-se um problema grave de segurança informática [9]. É precisamente por isso que se investiga atualmente como ensiná-los a duvidar, a reconhecer erros e a verificar antes de afirmar.

Ora, a metáfora do título deste texto aponta para algo mais profundo. Hoje, o que chamamos de “raciocínio” nestes sistemas continua a ser uma simulação muito limitada e superficial, como veremos no próximo artigo desta série. Os modelos destacam-se quando podem reutilizar padrões que já viram milhares de vezes durante o treino. Mas, se mudarmos os nomes das peças de um problema, introduzirmos dados irrelevantes que distraiam ou pedirmos que generalizem para estruturas novas, o seu desempenho ressente-se de forma notável.

Na minha opinião, o termo modelos de raciocínio é sobretudo uma designação comercial, que pode induzir em erro, uma vez que as IA atuais não raciocinam como os humanos. Os resultados mostram que os modelos atuais têm limitações não apenas no raciocínio simbólico, mas também na generalização estrutural. Não constroem novos significados, nem verificam com intenção. Funcionam com base em correlações, não em compreensão. Simulam raciocínio, mas não o experienciam. Investigadores como Yann LeCun, recentemente distinguido com o Prémio Nobel, têm debatido amplamente estes aspetos. Os LLM fazem algo diferente — valioso em muitos contextos, mas diferente.

Isto não diminui, de forma alguma, o valor dos avanços alcançados, que são enormes e têm aplicações reais e benéficas. Precisamente por isso, convém manter um olhar crítico e honesto. Se nos deixarmos levar por títulos pomposos e carregados de hype, podemos confundir a reutilização eficaz de padrões com reflexão profunda — e não são a mesma coisa. A reutilização é uma ferramenta poderosa para trabalhar mais depressa e melhor em tarefas repetidas ou com estrutura conhecida. O pensamento profundo, por outro lado, manifesta-se quando é preciso explorar novos caminhos, descartar opções, verificar resultados e, por vezes, mudar rapidamente de foco. Para que um sistema automático se aproxime desse nível de inteligência de forma fiável, tem de fazer mais do que concatenar frases: precisa de explorar, verificar e aprender no próprio processo.

Antes de delegarmos decisões críticas nestes modelos — seja em mobilidade autónoma, cibersegurança, engenharia de sistemas ou mesmo em política [10] —, vale a pena fazer duas perguntas simples.
A primeira: este problema é suficientemente semelhante a outros que o modelo LLM já enfrentou, ou estamos a pedir-lhe que navegue por territórios desconhecidos?
A segunda: foi feita alguma verificação independente do que está a propor, ou é apenas uma resposta que soa convincente por si só? Se respondermos com seriedade a estas duas perguntas, evitaremos mal-entendidos e tomaremos melhores decisões.

Nesta série de textos, gostaria de seguir precisamente essa linha. Na próxima parte, veremos porque é que muitos dos sucessos dos modelos LLM são, sobretudo, casos brilhantes de reutilização de padrões; e, numa terceira, falaremos sobre algo que me preocupa em particular: como o nosso próprio comportamento muda quando trabalhamos com estas ferramentas — e de que forma elas influenciam a maneira como pensamos e resolvemos problemas.

Neste artigo, quero aproximar a IA das pessoas com uma abordagem útil, responsável e transparente. A minha intenção é partilhar, de forma didática, o que aprendo nos projetos em que trabalho na GMV, ajudando a distinguir entre expetativas e realidade — para que qualquer pessoa, seja estudante ou profissional, possa tomar melhores decisões. Gostaria muito que acompanhasse esta série, que partilhasse as suas dúvidas e que conversássemos sobre elas.

Autor: David Miruat

REFERÊNCIAS:

[1] P. Shojaee, I. Mirzadeh, K. Alizadeh, M. Horton, S. Bengio, e M. Farajtabar, «The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity», 18 de julho de 2025, arXiv: arXiv:2506.06941. doi: 10.48550/arXiv.2506.06941.

[2] A. El-Kishky et al., «Learning to Reason with LLMs». OpenAI, setembro de 2024. Acedido: 25 de setembro de 2025 [Online]. Disponível em: https://openai.com/index/learning-to-reason-with-llms/

[3] E. Chen et al., «Reasoning Models Don’t Always Say What They Think», 8 de maio de 2025, arXiv: arXiv:2505.05410. doi: 10.48550/arXiv.2505.05410.

[4] D. Guo et al., «DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning», Nature, vol. 645, n.^o 8081, pp. 633-638, sep. 2025, doi: 10.1038/s41586-025-09422-z.

[5] H. Wen et al., «ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute», 30 de agosto de 2025, arXiv: arXiv:2509.04475. doi: 10.48550/arXiv.2509.04475.

[6] A. Sinha, A. Arun, S. Goel, S. Staab, e J. Geiping, «The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs», 11 de setembro de 2025, arXiv: arXiv:2509.09677. doi: 10.48550/arXiv.2509.09677.

[7] W. Zhao, P. Aggarwal, S. Saha, A. Celikyilmaz, J. Weston, e I. Kulikov, «The Majority is not always right: RL training for solution aggregation», 8 de setembro de 2025, arXiv: arXiv:2509.06870. doi: 10.48550/arXiv.2509.06870.

[8] A. T. Kalai, O. Nachum, S. S. Vempala, e E. Zhang, «Why Language Models Hallucinate», 4 de setembro de 2025, arXiv: arXiv:2509.04664. doi: 10.48550/arXiv.2509.04664.

[9] D. Miraut, «Slopsquatting: una amenaza silenciosa nacida de las alucinaciones de los LLMs», GMV Blog. Acedido: 25 de setembro de 2025 [Online]. Disponível em: https://www.gmv.com/es-es/media/blog/ciberseguridad/slopsquatting-amenaza-silenciosa-nacida-alucinaciones-llms

[10] RTVE.es, «El Gobierno de Albania nombra a una “ministra” creada con Inteligencia Artificial para acabar con la corrupción», RTVE.es. Acedido: 25 de setembro de 2025 [Online]. Disponível em: https://www.rtve.es/noticias/20250912/gobierno-albania-nombra-ministra-creada-inteligencia-artificial-acabar-corrupcion/16726028.shtml

Imprimir

Comentários

O seu nome

CAPTCHA

Esta questão é para testar se você é um visitante humano ou não a fim de prevenir submissões automáticas de spam.

A SkyNet sonha com ovelhas elétricas?

Comentários

Texto simples

Related