A economia global já foi impulsionada pela industrialização. Hoje é alavancada por conhecimento e informação. Grandes avanços tecnológicos e mudanças de plataforma aceleraram essa transição.

Na década de 1990, tivemos a internet. Os anos 2000 trouxeram a era da computação em nuvem. A década de 2010 deu origem à onipresença dos smartphones.

O que antes eram plataformas emergentes ampliou o acesso ao conhecimento e transformou a forma como as pessoas se comunicam, criam e consomem conteúdo.

Hoje, os avanços nos sistemas chamados de Large Language Models, ou “LLMs”, e outras ferramentas generativas de ML (“generative AI”) estão simplificando a criação de conteúdo. LLMs são redes neurais complexas que podem gerar textos ou imagens.

Esses modelos são a sustentação de sistemas como o GPT-3 da OpenAI (texto) e o LaMDA do Google (diálogo conversacional) e ajudaram a inspirar o DALL-E e o Midjourney da OpenAI (texto para imagem).

Os LLMs vêm aumentando em tamanho e sofisticação em média 10 vezes por ano. Como resultado, esses sistemas podem gerar conteúdo de forma autônoma, seja texto, visual, áudio, código, dados ou multimídia, a partir de simples prompts criados por humanos.

Esses modelos estão se tornando rapidamente a estrutura cognitiva da aplicação da IA ​​em muitas aplicações do mundo real.

A IA generativa é uma abordagem nascente, mas criativa. É uma das estruturas de ML mais bem-sucedidas na evolução do aprendizado profundo (Deep Learning) que vimos na última década.

A IA generativa é uma abordagem nascente, mas criativa

É um aprendizado de máquina não supervisionado ou semi-supervisionado para criar conteúdos, como imagens digitais, vídeo, áudio, texto ou código. Até agora, existem duas estruturas principais de IA generativa: Generative Adversarial Network (GAN) e Generative Pre-trained Transformer (GPT).

A GAN usa duas redes neurais para competirem entre si, colocando uma contra a outra (portanto, “adversária”) para gerar novas instâncias de dados sintéticos que podem passar por dados reais. As GANs usam uma estrutura cooperativa de jogo de soma zero para aprender. Eles são amplamente utilizados na geração de imagem, vídeo e voz.

O GPT é um modelo de linguagem autorregressivo baseado na arquitetura do transformer, pré-treinado de forma generativa e não supervisionada. O transformer é uma arquitetura codificador-decodificador com um mecanismo de auto atenção.

Como ele pode acessar os vetores de estado de cada palavra de entrada, diferentemente do LSTM (Arquitetura de Redes Neurais Long Short Term Memory), usa apenas informações sobre outros tokens de camadas inferiores e pode ser calculado para todos os tokens em paralelo, demonstrando precisão e desempenho de treinamento significativamente aprimorados.

Ele evoluiu do BERT (Bidirectional Encoder Representations from Transformers) para RoBERTa, GPT-2, T5, TuringNLG e GPT-3. O BERT começou com cerca de 110 milhões de parâmetros, mas o GPT-3 mais recente tinha 175 bilhões de parâmetros e 96 camadas de atenção com um tamanho de batch 499 bilhões de palavras. Custou cerca de US$ 4,6 milhões para ser treinado.

Existem muitas aplicações de aprendizado profundo, mas NLP e visão computacional são dois principais. Eles são domínios fundamentais da aprendizagem cognitiva, mas bifurcados por duas diferentes modelagens de DL: RNN (Recurrent neural network) e CNN (Convolutional neural network).

Devido à sua complexidade sofisticada e arquiteturas variadas, os cientistas de ML tiveram que pesquisar e desenvolver esses dois assuntos de forma independente, e, com isso, tornando difícil o seu compartilhamento e evolução em conjunto.

O transformer muda o jogo. O transformer não apenas teve sucesso na modelagem de linguagem, mas demonstrou ser promissor em visão computacional. Transformers de visão (ViT) estão disponíveis em PyTorch e TensorFlow.

Algumas aplicações já chamam a atenção. Para automação de programação, o Copilot do Github, uma colaboração com a OpenAI, obteve mais de 1,2 milhão de usuários apenas no ano passado. Da mesma forma, a Amazon lançou recentemente o CodeWhisperer, sua ferramenta de geração de código baseada em LLM.

Generative AI e LLMs são a base de uma importante mudança de paradigma na criação de conteúdo, comunicação e geração de conhecimento. Assim como a computação em nuvem e os smartphones transformaram indústrias e criaram outras totalmente novas, a IA generativa também têm esse potencial.

Assim como a computação em nuvem e os smartphones transformaram indústrias e criaram outras totalmente novas, a IA generativa também têm esse potencial

Em dez anos, a computação em nuvem cresceu de menos de 5% dos gastos com software para aproximadamente 30%. Da mesma forma, a penetração de smartphones, olhando apenas o mercado americano, passou de 1% para 55%.

A IA generativa tem ampla aplicação em mídia e comunicações, software, ciências da vida e assim por diante. Em muitos casos de uso, tem um custo mais baixo e uma geração de valor mais alto, então é provável que a sua adoção possa ser ainda mais rápida.

Isso, claramente desperta interesse de investidores (VCs) e surgem diversas startups como Jasper, que levantou US$ 125 milhões com um valuation de US$ 1,5 bilhão. (AI content platform Jasper raises $125M at a $1.5B valuation) e Stability.AI (aqui o vídeo do anúncio do Stable Diffusion), baseado em open source.

Aparecem também aplicações que aprimoram cada vez mais as imagens, inclusive as tornando indistinguíveis de fotos reais. Por exemplo, vejam “You can download a free GFP-GAN to improve your AI-generated faces” para uma amostra de como a tecnologia tem evoluído nesse sentido.

O editor de vídeo baseado em DL, RunwayML, tornou-se rapidamente um padrão da indústria e é usado por editores de vídeo que trabalham em programas da TV americana como 'The Late Show', 'Top Gear America', além de diversos filmes.

Esses recursos criam uma vantagem competitiva tão grande que plataformas como a TikTok já começaram a incorporá-los. E big techs como Microsoft e Meta não ficam paradas. A Microsoft lançou o Designer, uma ferramenta que será alimentada pelo DALL.E e a Meta veio com uma nova ferramenta para geração de vídeo, a Make-A-Video.

Esses sistemas precisam de muito dinheiro e capacidade computacional para serem treinadas e por isso acabam ficando nas mãos de poucas e bilionárias empresas que tem condições para bancar esses investimentos. Esses sistemas se tornam a plataforma base para que aplicações e startups sejam construídas em cima, mais ou menos, como o Android e o iOs, nos smartphones.

E aqui discutimos um ponto de atenção. Generative AI é a aplicação mais transformadora que o campo da IA já viu até o momento. Ele irá redefinir como criamos, mas também como interagimos e nos relacionamos com as criações dos outros.

Enquanto a IA tradicional nos permite extrair padrões e insights dos dados, moldando-os em novos conhecimentos, a IA generativa vai além. Ele usa esses dados para gerar mais dados. O fato de sua utilidade se manifestar no nível do consumidor tem potencial de mudar tudo. Qualquer pessoa pode usar a IA generativa para criar dados.

Enquanto a IA tradicional nos permite extrair padrões e insights dos dados, moldando-os em novos conhecimentos, a IA generativa vai além

Estamos vivendo em uma era sem precedentes de expansão criativa. O que historicamente era reservado para poucos agora está ao alcance de qualquer pessoa com computador e acesso à internet. A maioria das pessoas ainda não sabe que essa tecnologia existe, mas não demorará muito para que ela se torne popular.

É fácil de acessar e usar, barata e extremamente versátil. E melhora rápido. O potencial da IA ​​generativa no nível individual é enorme, mas no nível coletivo é uma mudança de vida.

Nesse nível, o que mais importa é a escala – não como “grande o suficiente para resolver um problema”, mas como “grande o suficiente para causar um”. O desenvolvimento acelerado combinado com utilidade transversal e escalabilidade inerente (fácil de usar e barato) é a maior força da IA ​​generativa e, também, sua maior fraqueza.

Acredito que essas ferramentas generativas de IA podem ajudar a melhorar a capacidade humana, de escrever, pintar, codificar e qualquer outra coisa que possa surgir. Se uso de forma criativa, com as pessoas explorando seus “eus” criativos, é extremante positiva. Essas criações terão intenção e personalidade, mesmo que seja impossível capturá-las totalmente com os textos dos prompts.

Creio que o problema aparece quando essas ferramentas se cruzam com nossa falta de senso de proporção e os incentivos externos aos quais todos estamos sujeitos, quando nosso objetivo é gerar o máximo de conteúdo possível para obter algum benefício. A cultura do “like”.

Muitas pessoas não estarão aprimorando suas habilidades, mas substituirão sua presença, usando as ferramentas em todas as oportunidades possíveis. Se pudermos usar essas ferramentas para qualquer atividade criativa, muitos (se não a maioria das pessoas) as usarão para todas as atividades criativas.

Uma consequência negativa é que eventualmente inundaremos a internet com dados gerados por IA. Isso não implica que os sistemas de IA criarão todos os dados na internet, mas se metade for gerada por IA e não soubermos disso, talvez aí tenhamos um problema.

À medida que a IA generativa melhora e se torna mais acessível ao público em geral, a diferença na velocidade com que nós, coletivamente, criamos dados da forma pessoal versus a automática só aumentará, com a porcentagem de dados e imagens criados pelos humanos diminuindo rapidamente.

Enquanto uma imagem do Instagram pode ter filtros ou reestruturação de formato, ou seja, uma melhoria no trabalho humano, uma imagem gerada por um sistema como DALL·E pertence a uma categoria diferente de mídia sintética.

À medida que a IA generativa melhora, a diferença na velocidade com que nós criamos dados da forma pessoal versus a automática só aumentará

Com modelos de texto para imagem, a entrada humana é um prompt, um string de texto. É o sistema de LLM que apresenta uma representação visual, que não é apenas uma transformação mínima, e o processo intermediário é opaco (impenetrável) e estocástico (dificilmente repetível).

Os dados gerados pelos sistemas LLM são o mais distante do “natural”, pois a entrada humana é mínima. Embora isso não reduza necessariamente o valor do resultado, o coloca em uma categoria própria. Isso abre todo uma discussão sobre direitos autorais que precisarão ser atualizados.

Esse fenômeno já está acontecendo. Recentemente o site TechCrunch publicou o artigo “Stability AI, the startup behind Stable Diffusion, raises $101M” onde apontava que mais de 1,5 milhão de usuários já tinham contas no  DreamStudio (O UI oficial do Stable Diffusion) e que no total já tinham gerado mais de 70 milhões de imagens. Alguns dados apontam 10 milhões de usuários o usando diariamente.

Hoje, menos de 1% do conteúdo online é gerado usando esses algoritmos. Agora, imagine que a Stable Diffusion e outras ferramentas, cresçam de forma acelerada durante os próximos anos para mais de 1 bilhão de usuários diários, que é um crescimento plausível, se assumirmos que a tecnologia amadurecerá e será integrada a produtos e serviços populares.

Teríamos alguns trilhões de imagens sendo geradas por esses sistemas em pouco anos. Isso é no mínimo quatro a cinco vezes todas as imagens feitas pelo homem na internet. E esse volume pode ser esperado para texto, código, etc.

A internet já contém mais informações do que qualquer ser humano (ou todos combinados, aliás) jamais poderia consumir em toda a vida. Apenas no YouTube, os usuários carregam 30 anos de vídeos todos os dias.

O problema pode ser a qualidade dessas informações. Nada impede que a baixa qualidade impere e sejamos inundados por imagens desagradáveis e textos que geram desinformação, preconceitos e falsidades.

Como temos o incentivo para criar mais dados porque a maioria não tem a intenção de transmitir ou armazenar ideias, pensamentos ou sentimentos, mas sim atrair atenção (objetivo de gerar receita com “likes”), a proposta de “precisamos criar mais e mais” não é positiva. Nesse caso, a IA generativa piora a situação.

O que muitas vezes é bom para o Vale do Silício, não necessariamente agrada o restante do mundo. Culturas diferentes têm diferentes pontos de vista e o que pode ser atrativo para uma, pode ser ofensiva para outra.

À medida que novas tecnologias aparecem, como os algoritmos geradores de imagem, os “generative AI”, a recepção poderá ser bem diferente, dependendo dos aspectos culturais da uma sociedade.

Além disso, creio que o avanço muito rápido na evolução tecnológica dos sistemas de DL, acaba gerando conflitos entre as diferentes percepções éticas e legais. Muitas vezes torna-se tênue o limite entre a legalidade e a ilegalidade.

Não devemos cercear o futuro aplicando nas novas tecnologias estritamente as regras de hoje, como também não podemos julgar o passado pelos hábitos, costumes e leis de hoje.

Épocas diferentes, têm comportamentos e hábitos diferentes, e, portanto, legislações que mudam com as mudanças sociais e econômicas. Um sintoma disso é o artigo “AI-generated art sparks furious backlash from Japan’s anime Community” que mostra a reação de uma sociedade em relação à arte gerada por sistemas de ML.

A IA generativa está ganhando força dentro e fora do setor de tecnologia. Está acontecendo muito rápido. E existe a grande possibilidade de inundar a internet com conteúdo de baixa qualidade. Creio que temos pela frente uma longa e acalorada discussão sobre os limites de aplicação (se existirão...) dessas tecnologias.  Esse é o cuidado que devemos ter. O problema não é a tecnologia, mas como a usamos.