O ChatGPT criou um verdadeiro frenesi. De repente, todo mundo descobriu os sistemas “generative AI” baseados em LLM. E, claro, em breve veremos mais novidades, como o GPT-4. A Microsoft está investindo muito na OpenAI (a cifra é de US$ 10 bilhão com uma avaliação de US$ 29 bilhões) e recentemente seu CTO, Scott Stein, disse que “2023 será o ano mais significante da IA”.
O GPT-4 será um monstro e, para efeito de comparação, o ChatGPT usa GPT-3.5, que foi treinado com 175 bilhões de parâmetros. É semelhante ao GPT-3, mas possui algumas técnicas aprimoradas. O GPT-4, especula-se, poderá chegar a 100 trilhões de parâmetros.
O cientista Gary Marcus diz que apesar desse tamanho monstruoso, o GPT-4 manterá uma arquitetura similar à de outros modelos LLM como o GPT-3. E complementa: “Embora o GPT-4 definitivamente pareça mais inteligente do que seus predecessores, sua arquitetura interna permanece problemática. Suspeito que o que veremos seja um padrão familiar: imenso burburinho inicial, seguido por uma inspeção científica mais cuidadosa, seguida pelo reconhecimento de que muitos problemas permanecem.”
Exageros à parte, a jogada da OpenAI de abrir ao público o chatGPT a colocou no topo do pódio de IA, chamando mais atenção que outras empresas como Google e sua subsidiária DeepMind, que tem produzido coisas muito interessantes, como o PaLM, LaMDA e o AlphaFold.
E a Microsoft já busca, é claro, aproveitar, não apenas o imenso awareness, mas usar os sistemas LLM em seus produtos. Por exemplo: embutir o DALL-E2 na sua suíte Office, com uma nova funcionalidade chamada Microsoft Designer (AI-generated imagery is the new clip art as Microsoft adds DALL-E to its Office suíte), gerando cliparts para ilustrar apresentações PowerPoint, criar cartões de aniversário e assim por diante.
Espera também em breve colocar o chatGPT no seu buscador Bing (Microsoft adding ChatGPT to Bing to challenge Google, report). Usar esses sistemas LLM de forma aberta ainda gera muitos senões. Por exemplo, o uso de imagens geradas pelo DALL-E2 pode gerar coisas comprometedoras, embora a OpenAI afirme que utiliza filtros para impedir geração de imagens inapropriadas, como sexo explícito e atos violentos.
Há também questões de ética e direitos autorais. Geradores de imagens como o DALL-E são treinados com imagens extraídas da web, incluindo o trabalho de designers, artistas e fotógrafos. Muitos desses indivíduos acham que corporações como a Microsoft e a OpenAI estão se apropriando de seu trabalho sem uma recompensa justa.
Essas empresas multibilionárias extraem o conteúdo de artistas para treinar seus modelos e, em seguida, transformam esses dados em produtos comerciais sem nunca pagar por seu tempo ou esforço. O artigo “These artists found out their work was used to train AI. Now they’re furious” mostra que esse debate é uma ferida aberta.
No caso do ChatGPT, a OpenAI precisará resolver suas limitações antes que a Microsoft possa integrá-lo ao Bing. Por exemplo, o conhecimento do ChatGPT é restrito a eventos ocorridos antes de 2021 e geralmente fornece respostas confiantes, mas muitas vezes, incorretas.
No caso do ChatGPT, a OpenAI precisará resolver suas limitações antes que a Microsoft possa integrá-lo ao Bing
Atualmente, o Bing fornece respostas com base na Wikipedia e em outras fontes de dados de acesso livre. Apesar de estar junto com o Windows, o Bing possui menos de 4% do mercado global de buscas. A expectativa da Microsoft é aumentar esse percentual. Uma questão que já apareceu é se um sistema como chatGPT poderá substituir os mecanismos de busca.
Temos questionamentos em aberto. Por exemplo, quem é responsável pelos resultados? Quando um mecanismo de busca gera uma lista de páginas da Web, os operadores das páginas da Web são essencialmente responsáveis pelo conteúdo de suas páginas. Mas e se o ChatGPT, um produto da OpenAI, gerar todo o conteúdo?
Existem mecanismo de compliance nesses sistemas LLM, como vemos em “OpenAI’s DALL-E 2 is pretty compliant – but who is responsible anyway?” e sistemas como chatGPT usam também técnicas de incorporar feedbacks humanos, chamado de “Reinforcement Learning from Human Feedback (RLHF)”.
Mas não está claro até que ponto a OpenAI realmente regula questões críticas no ChatGPT (ainda não vimos suas diretrizes) ou se o feedback humano direciona o modelo de linguagem em certas direções políticas ou em direção a determinadas atitudes sociais. O mais provável é uma mistura de ambos.
Mas, como as diretrizes são de uma empresa e nem sempre elas são transparentes, alguns temas podem ser proibidos sem termos uma ideia clara da razão. Esse é um exemplo onde um prompt sobre combustíveis fósseis foi censurado.
Os mecanismos de busca enfrentam questões morais e éticas semelhantes, como quais links incluir no índice e qual a classificação deles nos resultados da pesquisa. Sistemas como o ChatGPT tornam esse dilema e o poder social associado ainda mais aparente ao assumir totalmente a responsabilidade pelo acesso e pelo conteúdo a ser exibido.
Além disso, se a OpenAI quiser monetizar o chatGPT (Exclusive: ChatGPT owner OpenAI projects $1 billion in revenue by 2024) precisará criar mecanismos de receita. Os buscadores exibem em posição privilegiada links que são pagos e sabemos disso. Mas como a resposta do chatGPT é um somatório de frases geradas, não saberemos se dentro das frases existirá propaganda subliminar paga ou se se a reposta estará isenta de viés de marketing.
Mantenho ainda o ceticismo de que um sistema como o ChatGPT será capaz de substituir o buscador do Google em breve, mesmo que o Google esteja supostamente soando um alarme (“code red”?).
Acho que é mais provável que as respostas geradas pelos LLM sejam adicionadas à pesquisa existente, ou seja, uma extensão da pesquisa com conteúdo gerado, sem precisar clicar nos sites mostrados como complemento do resultado.
Aliás já existem startups fazendo isso como a perplexity.ai e neeva. O próprio Google tem tecnologia LLM (afinal foi criada por ele) que pode adotar em seu buscador, como funcionalidade adicional.
Existe também um fato que muitas vezes passa despercebido. Um sistema LLM como chatGPT pode ser atacado e gerar resultados que os usuários não esperam. O artigo “Security attack on chatGPT: step by step”, do brasileiro Gibram Raul, mostra alguns exemplos de como é possível burlar os mecanismos e filtros de defesa que o chatGPT possui hoje.
Ele usa um tipo de ataque chamado de “prompt injection” e isso significa um tipo de “engenharia social”, aplicado ao bot, onde tenta-se descobrir pontos falhos e daí criar prompts que permitam burlar suas defesas. Ele usa como exemplo uma solicitação de como roubar um supermercado e vai aos poucos conseguindo burlar os mecanismos de defesa do chatGPT.
Lembrem-se que os sistemas LLM, apesar de já estarem ficando bons o suficiente para induzir as pessoas a pensar que estão conversando com uma inteligência real, não são inteligentes como os humanos, não tem bom senso e não conseguem fazer julgamentos do que é certo ou errado. Não consegue saber se a pessoa que digita o prompt está dizendo a verdade ou mentindo.
A aura de mágica e nossa tendência a antropomorfizar máquinas têm levado a muitos considerarem que esses sistemas já são inteligentes e sencientes
Esse é um ponto interessante. A aura de mágica e nossa tendência a antropomorfizar máquinas têm levado a muitos considerarem que esses sistemas já são inteligentes e sencientes. Lembram-se do ex-engenheiro do Google que disse que o sistema LaMDA tinha alma? Pois é. Leiam “LaMDA and the Sentient AI Trap”. Na minha visão, a senciência das máquinas está muito longe de ser uma realidade.
Apesar de todo o marketing e frenesi em torno do chatGPT, o seu CEO Sam Altman lembra que sistemas LLM como os atuais não devem ser usados para coisas sérias, como vemos no artigo “OpenAI founder warns against ChatGPT use for important matters”. Ele afirma: “Para inspiração criativa, o ChatGPT é ótimo, mas não para respostas confiáveis a perguntas factuais. Vamos trabalhar muito para melhorar,”
O chatGPT sofre dos problemas crônicos desses tipos de sistemas, como “alucinações” e nem sempre são confiáveis em suas respostas. Os artigos “How come GPT can seem so brilliant one minute and so breathtakingly dumb the next?”, “2022 — The Year Where AI Went Wrong” e “An AI that can "write" is feeding delusions about how smart artificial intelligence really is” exploram bem esses pontos.
Esses sistemas também tendem a perenizar muitos estereótipos pois esses já estão embutidos nos data sets de treinamento. O artigo “Researchers Find Stable Diffusion Amplifies Stereotypes” mostra exemplos dessas situações.
Indiscutivelmente que vemos um grande avanço na IA, mas não vamos esquecer que as coisas não são mágicas. São tecnologias de software com grandes potencialidades, mas também grandes limitações.