A ferramenta criada para agregar todos os dados existentes possíveis pode estar próxima de uma crise: a falta de dados. O recurso mais valioso da inteligência artificial está prestes a se esgotar e essa possibilidade está tirando o sono dos líderes do setor.

Se a IA precisou ultrapassar diversos obstáculos desde a sua criação como os questionamentos sobre falta de transparência e problemas legais e regulatórios, agora vai enfrentar um de seus maiores desafios, segundo a Business Insider.

Isso porque, por anos, gigantes como a OpenAI e o Google têm extraído dados da internet para treinar seus modelos de linguagem que alimentam ferramentas e recursos de IA. Porém, esses dados não são infinitos, pois dependem de textos, vídeos e outros recursos produzidos por humanos.

Segundo a empresa de pesquisa Epoch AI, os dados textuais utilizados por ferramentas como o ChatGPT e o Gemini podem se esgotar até 2028. Além disso, as informações que ainda estão disponíveis passam por restrições crescentes e estão fora do alcance.

Com essa perspectiva, o segmento está considerado uma opção para substituir a intervenção humana limitante. A aposta é em dados sintéticos ou, de forma clara, dados "falsos".

No momento, o debate entre os pesquisadores é se os dados sintéticos são realmente a melhor solução para o problema. Para alguns especialistas, essa opção pode levar os modelos de IA a se contaminarem com informações de baixa qualidade e, como resultado, "entrar em colapso."

Esse questionamento pode ter fundamento. Um artigo publicado recentemente por pesquisadores de Oxford e Cambridge mostrou que alimentar um modelo com dados gerados por IA eventualmente fazia com que ele respondesse besteiras. No estudo, os autores chegaram à conclusão de que os dados gerados por IA não deveriam ser descartados, mas precisam ser equilibrados com dados reais.

Porém, algumas pessoas discordam dessa opinião. Sam Altman, CEO da OpenAI, acredita que os modelos de IA deveriam produzir dados sintéticos bons o suficiente para se treinarem sozinhos, tornando o processo mais barato e aparentemente infinito.

Além da OpenAI, outras empresas já estão cogitando seguir esse mesmo caminho.

Em junho, a Nvidia lançou um modelo de IA que cria conjuntos de dados artificiais para treinamento. Em julho, pesquisadores da gigante tecnológica chinesa Tencent criaram o gerador de dados chamado Persona Hub, que realiza funções semelhantes e, no mesmo mês, a Meta apresentou o Llama 3.1, uma nova série de modelos de IA que geram dados sintéticos e os utilizam para "ajuste fino" no treinamento.

Ao mesmo tempo, startups como as americanas Gretel e SynthLabs estão surgindo com o propósito de gerar e vender grandes quantidades de dados para essas empresas.

"É uma crise," disse Gary Marcus, analista de IA e professor de psicologia e ciência na Universidade de Nova York. "As pessoas tinham a ilusão de que você poderia tornar os grandes modelos de linguagem infinitamente melhores apenas usando mais e mais dados, mas agora elas basicamente usaram todos os dados que podiam."