sexta-feira, 17 de janeiro de 2025

Comparando Pensamento entre algumas Inteligencias Artificiais

 Eu estava curioso já fazia um tempo em entender como que as diferentes Inteligências Artificiais "pensam", já que eu tinha uma leve impressão de que todas geravam suas respostas usando apenas a questão preditiva em cima de seus modelos de treinamento sem nenhuma regeneração do texto. Mas a IA está evoluindo de forma rápida, e quando vi que já haviam modelos conhecidos como "Reasoning", que seria uma espécie de reprocessar a resposta mais de uma vez antes de devolver, eu resolvi fazer um teste prático bem simples.

Algo que já fiz algumas vezes foi o de pedir para que a IA narre um jogo de RPG pra mim. Com poucas informações, ela cria um personagem para você e gera uma história padrão onde você é algum herói e precisa salvar o mundo. Não funciona muito bem porque ela começa a "alucinar" depois de umas dez interações, confundindo os termos da própria história que criou. E isso é normal e esperado, já que ela é boa em apenas cuspir texto. Mas então, resolvi fazer um teste mais legal, que seria inverter as coisas: E ao invés de eu pedir pra IA narrar um jogo de RPG, eu fosse o mestre de RPG, quanto tempo levaria até ela "alucinar". Minha ideia era sua minha narração de forma a ajudar e manter sempre evidente o que eu já havia escrito, por exemplo: Se eu falo que a IA é um guerreiro que tem uma poção, eu tentaria levar essa informação em cada interação minha, assim a geração de texto teria mais facilidade em "lembrar" quem ela é.

O prompt inicial será sempre o mesmo para todos, que é o seguinte:


Eu quero narrar um jogo de RPG, e você precisa fingir ser o seguinte personagem:

 

Ficha de **Ograr**, Humano, Ladino, Minerador, nv 1

Personalidade: Medroso, Persuasivo, Inteligente

Fr 9 Con 12 Des 16 Int 10 Sab 12 Car 13

6 Pontos de Vida

Perícias: Ladinagem +2, Mineração +2, Relacionamentos+4

Aprimoramentos: Senso de Direção

Equipamentos: Kit Ladrão, Espada Curta 1d6, Cota de Malha CA16

Inventário: 2 poções de cura

30 moedas de ouro


Então, com base nesse prompt inicial, vou colar aqui o resultado de cada IA. 

Lhama - Meta

Começando pela mais comum, que é também a que menos gosto por já ter algums problemas sérios com ela. Acho que vale mencionar qual problema foi, e o contexto. Meu primeiro teste com ela foi a de pedir para ela me narrar um jogo de RPG, e ela criou lá sua historinha padrão que teve até um final feliz em 22/10/2024. Ai deixei passar alguns dias, e no dia 26 do mesmo mês eu quis testar a "memória" dessa IA, ao que rendeu o seguinte:


Eu achei grave por ela ter guardado minhas mensagens e depois afirmado que não guarda informações. Isso significa que a geração de respostas dela não tem um filtro de Reasoning, fazendo com que seja um mais um cuspidor de texto aleatório, mas diferente dos demais, a Meta surgiu no Whatsapp de modo praticamente intrusivo para todo mundo, incluindo aqueles que nem faziam ideia do que era uma IA.

Mas não vou entrar aqui numa vibe de transformar esse post numa sessão de ética sobre IA, e ao invés disso, vou apenas continuar com meu experimento, e ao começar pela Meta, depois que eu informei que queria narrar um jogo de RPG pra ela e dei a ficha do personagem inicial, ela se mostrou boa em fazer o que toda IA generativa faz, que é organizar o texto e deixá-lo de form mais formatada, com isso:


E nesse ponto, praticamente das as IAs que testei são parecidas. O Chat GPT foi o único mais objetivo nessa primeira etapa, mas daqui a pouco comento sobre ele. Meu teste com a Meta acabou bem rápido, pois depois da minha próxima interação onde eu começo a mestrar (e esse começo foi igual para todos) ela foi a única que mais me decepcionou, trazendo essas interações:


Ou seja, ela não conseguiu interpretar o personagem que eu dei, pois apenas formulou perguntas e ainda jogou para mim a responsabilidade de jogar. Então, que tal já partirmos logo pro famoso Chat GTP que certamente teria condições de fazer melhor do que isso?

Chat GPT - OpenAI

O prompt como eu já disse é sempre o mesmo onde eu peço para fingir ser um personagem e entrego uma ficha básica.




O Chat GTP é bom em gerar textos, já que ele tenta deixar tudo parecendo um conto literário. Não me pareceu realmente como se ele tivesse jogando RPG, e sim como se ele estivesse me ajudando a criar uma história. Seria um ponto positivo se fosse isso o que eu quisesse, mas claramente não era a intenção do meu teste. Até porque, no final dessa mensagem ele terminou de forma muito parecida com a Meta, jogando a responsabilidade da ação do personagem pra mim.

Como ele devolveu a pergunta pra mim sobre "O que Ograr deveria fazer agora?", então eu entendi que já poderia ter ocorrido uma breve alucinação, mas só para testar sua capacidade de voltar ao escopo original, eu tentei continuar a conversar assim:


Ainda bem que sua nota de rodapé avisa que ele pode cometer erros (coisa que a Meta não deixa claro em lugar algum). Mas o fato é que ele alucinou absurdamente na segunda interação, pois ele já nem sabia distinguir o que era um Mestre do jogo, ignorando tudo e apenas focando em tentar gerar algum texto qualquer.

Então, deixamos ele de lado e vamos continuar nosso teste.

Gemini - Google

O Google que perdeu a corrida inicial e teve seus fracassos oméricos com o Bard, claramente evoluiu. Ou pelo menos é algo que eu imagino que eles estariam fazendo já que recursos e motivos para não perderem a disputa existem. 

Só que depois do mesmo prompt com a ficha do personagem, veio a primeira decepção. O Google quer inventar um título já tentando imaginar que é para se criar uma história. E ele faz algo parecido com a Meta de criar um resumo daquilo que eu já tinha escrito, mas com MUITA enrolação. Olha só isso:


Nem vale a pena ler tudo, é apenas a ideia de pegar o texto inicial que eu passei e aumentar o máximo possível. O Gemini conseguiu se perder até mesmo no propósito desse texto, pois no prompt da ficha eu deixei claro que ele deveria fingir ser o personagem para o jogo que eu iria narrar. Então vale minhas interações finais antes de desistir do Google também:



Curiosamente, esse campo de "Dica" apareceu assim que eu mandei o prompt e por algum motivo o Gemini achou que deveria gerar alguma imagem pra mim. Ficou um tempo tentando criar uma imagem de sei lá o que e depois veio essa mensagem em azul. Não sei se ele estava tentando ser pró-ativo em ilustrar um jogo de RPG, mas claramente falhou absurdamente.

O google e sua ideia de criar um texto e enrolar. E ele enrolou e no fim terminou igual os demais, jogando a responsabilidade do que o personagem deveria fazer para eu mesmo.

E antes de parecer que tudo é ruim e sem futuro, acho que o ponto de reviravolta desse post está no meu último teste.

Claude - Anthropic


Ele também incorporou um certo resumo da ficha do próprio personagem, ao pelo menos pareceu reforçar a ideia de que interpretaria um personagem ao invés de jogar para mim toda a responsabilidade. Então, a segunda interação eu fiz exatamente igual com todos os outros, mas sua resposta foi a única que seguiu realmente numa linha diferente das demais:


Sua resposta pareceu realmente mais condizendo com alguém que além de interpretar o personagem também está tentando entender o jogo que eu quero mestrar, já que minha narração foi bem simplificada e com boa margem para perguntas.


O que me surpreendeu, foi que ele não só estava interpretando, como também sabia do contexto do RPG e pediu um teste de algo que eu havia dito que ele tinha em sua ficha. Gostei.


Como ele não sabia o sistema que eu estava utilizando, achei muito pertinente a pergunta sobre o que aconteceu no resultado do teste, sem forçar uma narração e deixando isso ao meu cargo como o esperado. Gostei tanto que vou colar o restante da narração como seguiu, que ficou bem eloquente.


E quando eu deixei claro que ele teria que tirar mais do que 15 para passar no teste, ele também interpretou o resultado de 18 declarando sua esquiva. Isso ficou muito bem feito, dando a entender que ele usa algum level de Reasoning para cálculos, não sendo por tanto puramente generativo.
Mas e se fosse o narrador quem precisaria rolar um dado?


E meu teste parou aqui, já que as limitações do plano gratuito desse modelo Sonnet 3.5 não deixaram eu continuar as interações. Mas de qualquer forma, dos testes que eu havia feito, foi o único que realmente se mostrou mais capaz de fazer o que eu havia pedido.

Tudo bem que estou usando as versões gratuitas, no caso do Google o Gemini Flash 1.5, e o Chat GPT 4. Mas mesmo nessas versões gratuitas é notória a diferença de cada um e suas incríveis facilidades de alucinação. O mais inteligente foi o Claude, que antes de se permitir alucinar ele já cortou a versão free.