O que é IA generativa e como ela funciona?

Tempo de leitura: 11 minutes

Loading

A IA geradora (GenAI) é uma tecnologia de inteligência artificial (IA) que gera conteúdo automaticamente em resposta a solicitações escritas em interfaces de conversação em linguagem natural. Em vez de simplesmente fazer a curadoria de páginas da Web existentes, ao se basear no conteúdo existente, a GenAI produz de fato um novo conteúdo. O conteúdo pode aparecer em formatos que abrangem todas as representações simbólicas do pensamento humano: textos escritos em linguagem natural, imagens (incluindo fotografias, pinturas digitais e desenhos animados), vídeos, músicas e códigos de software. A GenAI é treinada usando dados coletados de páginas da Web, conversas em mídias sociais e outras mídias on-line. Ela gera seu conteúdo analisando estatisticamente as distribuições de palavras, pixels ou outros elementos nos dados que ingeriu e identificando e repetindo padrões comuns (por exemplo, quais palavras normalmente seguem quais outras palavras). Embora a GenAI possa produzir novos conteúdos, ela não pode gerar novas ideias ou soluções para desafios do mundo real, pois não compreende os objetos do mundo real nem as relações sociais que sustentam a linguagem. Além disso, apesar de seu resultado fluente e impressionante, não se pode confiar na precisão da GenAI. De fato, até mesmo o fornecedor do ChatGPT reconhece: “Embora ferramentas como o ChatGPT possam gerar respostas que pareçam razoáveis, não se pode confiar que sejam precisas”. (OpenAI, 2023). Na maioria das vezes, os erros passam despercebidos, a menos que o usuário tenha um conhecimento sólido do tópico em questão

Como funciona a IA generativa?

As tecnologias específicas por trás da GenAI fazem parte da família de tecnologias de IA chamada Aprendizado de Máquina (ML), que usa algoritmos para melhorar contínua e automaticamente seu desempenho a partir dos dados. O tipo de ML que levou a muitos dos avanços em IA que vimos nos últimos anos, como o uso de IA para reconhecimento facial, é conhecido como Redes Neurais Artificiais (RNAs), que são inspiradas no funcionamento do cérebro humano e em suas conexões sinápticas entre os neurônios. Há muitos tipos de ANNs. As tecnologias de IA geradora de texto e imagem baseiam-se em um conjunto de tecnologias de IA que estão disponíveis para os pesquisadores há vários anos. O ChatGPT, por exemplo, usa um Generative Pre-trained Transformer (GPT), enquanto o GenAI de imagem normalmente usa o que é conhecido como Generative Adversarial Networks (GANs) (consulte a Tabela 1).

Como funcionam os modelos de texto da GenAI

IA generativa de texto usa um tipo de RNA conhecido como Transformador de uso geral e um tipo de Transformador de uso geral chamado Modelo de linguagem grande. É por isso que os sistemas de IA de geração de texto são frequentemente chamados de modelos de linguagem grandes, ou LLMs. O tipo de LLM usado pela GenAI de texto é conhecido como Generative Pre-trained Transformer, ou GPT (daí o “GPT” em “ChatGPT”).

O ChatGPT foi desenvolvido com base no GPT-3, desenvolvido pela OpenAI. Essa foi a terceira renovação de seu GPT, sendo que a primeira foi lançada em 2018 e a mais recente, GPT-4, em março de 2023 (consulte a Tabela 2).

Cada GPT da OpenAI melhorou repetindo e renovando a anterior por meio de avanços em arquiteturas de IA, métodos de treinamento e técnicas de otimização. Uma faceta bem conhecida de seu progresso contínuo é o uso de quantidades crescentes de dados para treinar seu número exponencialmente crescente de “parâmetros”.

Os parâmetros podem ser considerados como botões metafóricos que podem ser ajustados para aperfeiçoar o desempenho do GPT. Eles incluem os “pesos” do modelo, parâmetros numéricos que determinam como o modelo processa a entrada e produz a saída. Além dos avanços na otimização das arquiteturas de IA e dos métodos de treinamento, essa rápida renovação também foi possível graças às enormes quantidades de dados e às melhorias nos recursos de computação disponíveis para as grandes empresas.

Desde 2012, os recursos de computação usados para treinar modelos de GenAI têm dobrado a cada 3 ou 4 meses. Em comparação, a Lei de Moore teve um período de duplicação de dois anos (OpenAI, 2018; Stanford University, 2019).

Depois que o GPT tiver sido treinado, a geração de uma resposta de texto a uma solicitação envolve as seguintes etapas:

  1. A solicitação é dividida em unidades menores (chamadas tokens) que são inseridas no GPT.
  2. O GPT usa padrões estatísticos para prever palavras ou frases prováveis que possam formar uma resposta coerente ao prompt.
    • O GPT identifica padrões de palavras e frases que comumente ocorrem em seu modelo de dados grandes pré-construído (que inclui texto extraído da Internet e de outros lugares).
    • Usando esses padrões, o GPT estima a probabilidade de palavras ou frases específicas aparecerem em um determinado contexto.
    • Começando com uma previsão aleatória, o GPT usa essas probabilidades estimadas para prever a próxima palavra ou frase provável em sua resposta.
  3. As palavras ou frases previstas são convertidas em texto legível.
  4. O texto legível é filtrado por meio do que é conhecido como “grades de proteção” para remover qualquer conteúdo ofensivo.
  5. As etapas 2 a 4 são repetidas até que a resposta seja concluída. A resposta é considerada concluída quando atinge um limite máximo de tokens ou atende a critérios de parada predefinidos
  6. A resposta é pós-processada para melhorar a legibilidade, aplicando formatação, pontuação e outros aprimoramentos (como iniciar a resposta com palavras que um ser humano poderia usar, como “Claro”, “Certamente” ou “Desculpe”).

Embora os GPTs e sua capacidade de gerar texto automaticamente estejam disponíveis para pesquisadores desde 2018, o que tornou o lançamento do ChatGPT tão inovador foi seu acesso gratuito por meio de uma interface fácil de usar, o que significa que qualquer pessoa com acesso à Internet poderia explorar a ferramenta.

O lançamento do ChatGPT provocou ondas de choque em todo o mundo e rapidamente fez com que outras empresas globais de tecnologia se recuperassem, juntamente com várias empresas iniciantes, lançando seus próprios sistemas semelhantes ou criando novas ferramentas com base neles.

Em julho de 2023, algumas das alternativas ao ChatGPT incluíam o seguinte:

  • Alpaca: Uma versão aperfeiçoada do Llama do Meta, da Universidade de Stanford, que tem como objetivo lidar com informações falsas, estereótipos sociais e linguagem tóxica dos LLMs.
  • Bard: Um LLM do Google, baseado em seus sistemas LaMDA e PaLM 2, que tem acesso à Internet em tempo real, o que significa que pode fornecer informações atualizadas.
  • Chatsonic: Criado pela Writesonic, ele se baseia no ChatGPT e também rastreia os dados diretamente.
  • Ernie (também conhecido como Wenxin Yiyan文心一言): Um LLM bilíngue da Baidu, ainda em desenvolvimento, que integra amplo conhecimento com conjuntos de dados maciços para gerar texto e imagens. Além disso, todos os dados usados para treinar seus modelos são de código aberto.
  • Jasper: Um conjunto de ferramentas e APIs que, por exemplo, pode ser treinado para escrever no estilo preferido de um usuário. Ele também pode gerar imagens.
  • Llama: Um LLM de código aberto da Meta que requer menos potência de computação e menos recursos para testar novas abordagens, validar o trabalho de outros e explorar novos casos de uso.
  • Open Assistant: Uma abordagem de código aberto projetada para permitir que qualquer pessoa com conhecimento suficiente desenvolva seu próprio LLM. Ele foi desenvolvido com base em dados de treinamento selecionados por voluntários.
  • Tongyi Qianwen (通义千问): Um LLM do Alibaba que pode responder a solicitações em inglês ou chinês. Ele está sendo integrado ao conjunto de ferramentas de negócios do Alibaba.
  • YouChat: Um LLM que incorpora recursos de pesquisa em tempo real para fornecer contexto e percepções adicionais a fim de gerar resultados mais precisos e confiáveis.

A maioria deles é de uso gratuito (dentro de certos limites), enquanto alguns são de código aberto. Muitos outros produtos estão sendo lançados com base em um desses LLMs. Os exemplos incluem os seguintes:

  • ChatPDF: Resume e responde a perguntas sobre documentos PDF enviados.
  • Elicit The AI Research Assistant: Tem como objetivo automatizar partes dos fluxos de trabalho dos pesquisadores, identificando documentos relevantes e resumindo as principais informações.
  • Perplexity: Oferece um “centro de conhecimento” para pessoas que buscam respostas rápidas e precisas, adaptadas às suas necessidades.

Da mesma forma, as ferramentas baseadas em LLM estão sendo incorporadas a outros produtos, como navegadores da Web. Por exemplo, as extensões para o navegador Chrome baseadas no ChatGPT incluem o seguinte:

  • WebChatGPT: Dá ao ChatGPT acesso à Internet para permitir conversas mais precisas e atualizadas.
  • Compose AI: Completa automaticamente frases em e-mails e em outros lugares.
  • TeamSmart AI: Fornece uma “equipe de assistentes virtuais”.
  • Wiseone: Simplifica as informações on-line.

Além disso, o ChatGPT foi incorporado a alguns mecanismos de busca e está sendo implementado em grandes portfólios de ferramentas de produtividade (por exemplo, Microsoft Word e Excel), tornando-o ainda mais disponível em escritórios e instituições educacionais em todo o mundo (Murphy Kelly, 2023).

Por fim, como uma transição interessante para o GenAI de imagens, o GPT mais recente da OpenAI, o GPT-4, é capaz de aceitar imagens e textos em seus avisos. Nesse sentido, ela é multimodal. Assim, alguns argumentam que o nome “Modelo de linguagem grande” (LLM) está se tornando menos apropriado, o que é um dos motivos pelos quais os pesquisadores da Universidade de Stanford propuseram o termo “modelo de fundação” (Bommasani et al., 2021). Essa alternativa ainda não foi amplamente adotada.

Como funcionam os modelos de GenAI de imagem

O GenAI de imagem e o GenAI de música normalmente usam um tipo diferente de ANN conhecido como Redes Adversárias Generativas (GANs), que também podem ser combinadas com Auto Encodificadores Variacionais. As GANs têm duas partes (dois “adversários”), o “gerador” e o “discriminador”.

No caso dos GANs de imagem, o gerador cria uma imagem aleatória em resposta a uma solicitação, e o discriminador tenta distinguir entre essa imagem gerada e as imagens reais. Em seguida, o gerador usa o resultado do discriminador para ajustar seus parâmetros, a fim de criar outra imagem. O processo é repetido, possivelmente milhares de vezes, com o gerador criando imagens cada vez mais realistas que o discriminador é cada vez menos capaz de distinguir das imagens reais.

Por exemplo, um GAN bem-sucedido treinado em um conjunto de dados de milhares de fotografias de paisagens pode gerar imagens novas, mas irreais, de paisagens que são quase indistinguíveis das fotografias reais. Enquanto isso, um GAN treinado em um conjunto de dados de música popular (ou mesmo de música de um único artista) pode gerar novas peças musicais que seguem a estrutura e a complexidade da música original.

Em julho de 2023, os modelos do Image GenAI disponíveis incluíam os seguintes modelos, todos eles gerando imagens a partir de prompts de texto. A maioria é de uso gratuito, dentro de certos limites:

  • Craiyon: Anteriormente conhecido como DALL -E mini.
  • DALL-E 2: Ferramenta de GenAI de imagem da OpenAI.
  • DreamStudio: Ferramenta de GenAI de imagem da Stable Diffusion.
  • Fotor: Incorpora GenAI em uma série de ferramentas de edição de imagens.
  • Midjourney: Uma ferramenta de GenAI de imagem independente.
  • NightCafe: Interface para difusão estável e DALL-E 2.

Exemplos de GenAI de vídeo de fácil acesso incluem os seguintes:●

  • Elai: Pode converter apresentações, sites e textos em vídeos.
  • GliaCloud: Pode gerar vídeos a partir de conteúdo de notícias, publicações em mídias sociais, eventos esportivos ao vivo e dados estatísticos.
  • Pictory: Pode criar automaticamente vídeos curtos a partir de conteúdo longo.
  • Runway: Oferece uma variedade de ferramentas de geração e edição de vídeo (e imagem).

Por fim, estes são alguns exemplos de música de fácil acesso GenAI:

  • Aiva: Pode criar automaticamente trilhas sonoras personalizadas
  • Boomy, Soundraw e Voicemod:  Podem gerar músicas a partir de qualquer texto e não exigem conhecimento de composição musical.

Engenharia de prompts para gerar os resultados desejados

Embora o uso da GenAI possa ser tão simples quanto digitar uma pergunta ou outro prompt, a realidade é que ainda não é fácil para o usuário obter exatamente o resultado que deseja. Por exemplo, a imagem revolucionária da IA Théâtre D’opéra Spatial, que ganhou um prêmio na Feira Estadual do Colorado, nos EUA, levou semanas escrevendo prompts e ajustando centenas de imagens para gerar a apresentação final (Roose, 2022).

O desafio semelhante de escrever prompts eficazes para a GenAI de texto levou a um número crescente de empregos de engenharia de prompts que aparecem em sites de recrutamento (Popli, 2023). A “engenharia de prompts” se refere aos processos e às técnicas de composição de entrada para produzir um resultado de GenAI que se assemelhe mais à intenção desejada pelo usuário. A engenharia de prompts é mais bem-sucedida quando o prompt articula uma cadeia coerente de raciocínio.

A engenharia do prompt é mais bem-sucedida quando o prompt articula uma cadeia coerente de raciocínio centrada em um problema específico ou uma cadeia de pensamentos em uma ordem lógica. As recomendações específicas incluem:

  • Usar uma linguagem simples, clara e direta que possa ser facilmente compreendida, evitando palavras complexas ou ambíguas.
  • Incluir exemplos para ilustrar a resposta desejada ou o formato das conclusões geradas.
  • Incluir o contexto, que é crucial para gerar conclusões relevantes e significativas.
  • Refinar e repetir conforme necessário, experimentando diferentes variações.
  • Ser ético, evitando prompts que possam gerar conteúdo inadequado, tendencioso ou prejudicial.

Também é importante reconhecer imediatamente que não se pode confiar nos resultados do GenAI sem uma avaliação crítica. Como a OpenAI escreveu sobre seu GPT mais sofisticado:

Apesar de seus recursos, o GPT-4 tem limitações semelhantes às dos modelos anteriores de GPT. O mais importante é que ele ainda não é totalmente confiável (ele ‘alucina’ fatos e comete erros de raciocínio). Deve-se tomar muito cuidado ao usar os resultados do modelo de linguagem, principalmente em contextos de alto risco, com o protocolo exato (como revisão humana, fundamentação com contexto adicional ou evitar usos de alto risco) de acordo com as necessidades de um caso de uso específico.

Tendo em vista a qualidade dos resultados do GenAI, devem ser realizados testes rigorosos com os usuários e avaliações de desempenho antes de validar as ferramentas para adoção em larga escala ou de alto risco. Esses exercícios devem ser projetados com uma métrica de desempenho que seja mais relevante para o tipo de tarefa para a qual os usuários solicitam que o GenAI forneça resultados.

Por exemplo, para resolver problemas de matemática, a “precisão” pode ser usada como a principal métrica para quantificar a frequência com que uma ferramenta GenAI produz a resposta correta; para responder a perguntas delicadas, a principal métrica para medir o desempenho pode ser a “taxa de resposta” (a frequência com que a GenAI responde diretamente a uma pergunta); para a geração de código, a métrica pode ser “a fração dos códigos gerados que são diretamente executáveis” (se o código gerado pode ser executado diretamente em um ambiente de programação e passar nos testes de unidade); para o raciocínio visual, a métrica pode ser “correspondência exata” (se os objetos visuais gerados correspondem exatamente à verdade básica) (Chen, Zaharia e Zou, 2023).

Resumindo, em um nível superficial, o GenAI é fácil de usar; no entanto, os resultados mais sofisticados precisam de uma contribuição humana qualificada e devem ser avaliados criticamente antes de serem usados.

Implicações para a educação e a pesquisa

Embora o GenAI possa ajudar professores e pesquisadores a gerar textos úteis e outros resultados para apoiar seu trabalho, esse não é necessariamente um processo simples. Podem ser necessárias várias renovações e repetições de um prompt antes que o resultado desejado seja obtido. Uma preocupação é que os jovens estudantes, por serem, por definição, menos especializados do que os professores, possam aceitar, sem saber e sem envolvimento crítico, resultados do GenAI que sejam superficiais, imprecisos ou até mesmo prejudiciais.

EdGPT emergente e suas implicações

Dado que os modelos GenAI podem servir como base ou ponto de partida para o desenvolvimento de modelos mais especializados ou específicos de um domínio, alguns pesquisadores sugeriram que os GPTs deveriam ser renomeados como “modelos básicos” (Bommasani et al., 2021).

Na educação, os desenvolvedores e pesquisadores começaram a ajustar um modelo básico para desenvolver o “EdGPT”. Os modelos EdGPT são treinados com dados específicos para servir a propósitos educacionais. Em outras palavras, o EdGPT tem como objetivo refinar o modelo que foi derivado de grandes quantidades de dados de treinamento geral com quantidades menores de dados educacionais de alta qualidade e específicos do domínio, o que potencialmente dá ao EdGPT mais escopo para apoiar a realização das transformações.

Por exemplo, os modelos de EdGPT voltados para a co-projetação de currículos podem permitir que educadores e alunos gerem materiais educacionais apropriados, como planos de aula, questionários e atividades interativas, que se alinham estreitamente com uma abordagem pedagógica eficaz e objetivos curriculares específicos e níveis de desafio para determinados alunos.

Da mesma forma, no contexto de um treinador de habilidades linguísticas 1:1, um modelo básico refinado com textos apropriados para um determinado idioma pode ser usado para gerar frases, parágrafos ou conversas exemplares para a prática. Quando os alunos interagem com o modelo, ele pode responder com textos relevantes e gramaticalmente precisos no nível certo para eles.

Teoricamente, os resultados dos modelos EdGPT também poderiam conter menos preconceitos gerais ou conteúdo questionável do que o GPT padrão, mas ainda assim poderiam gerar erros. É importante observar que, a menos que os modelos e a abordagem subjacentes do GenAI mudem significativamente, os EdGPT ainda podem gerar erros e são limitados de outras formas, como sugestões sobre planos de aula ou estratégias de ensino.

Dessa forma, ainda é importante que os principais usuários do EdGPT, especialmente professores e alunos, tenham uma perspectiva crítica em relação a todos os resultados. Atualmente, o refinamento dos modelos de base para o uso mais direcionado do GPT na educação está em um estágio inicial.

Os exemplos existentes incluem o EduChat, um modelo básico desenvolvido pela East China Normal University para fornecer serviços de ensino e aprendizagem, cujos códigos, dados e parâmetros são compartilhados como código-fonte aberto. Outro exemplo é o MathGPT que está sendo desenvolvido pelo TAL Education Group – um LLM que se concentra na resolução de problemas relacionados à matemática e em palestras para usuários de todo o mundo. No entanto, antes que seja possível um progresso significativo, é essencial que sejam envidados esforços para refinar os modelos básicos, não apenas acrescentando conhecimento sobre o assunto e eliminando o viés, mas também acrescentando conhecimento sobre métodos de aprendizagem relevantes e como isso pode ser refletido no design de algoritmos e modelos. O desafio é determinar até que ponto os modelos EdGPT podem ir além do conhecimento da matéria, visando também uma pedagogia centrada no aluno e interações positivas entre professor e aluno.

O desafio adicional é determinar até que ponto os dados do aluno e do professor podem ser coletados e usados de forma ética para informar um EdGPT. Por fim, há também a necessidade de uma pesquisa robusta para garantir que o EdGPT não prejudique os direitos humanos dos alunos nem retire o poder dos professores.

 

 

Autor: Unesco
Fonte: Unesco
Artigo Original: https://bit.ly/3rucpmJ

Fernando Giannini

Pesquisador de tecnologia aplicada à educação, arquiteto de objetos virtuais de aprendizagem, fissurado em livros de grandes educadores e viciado em games de todos os tipos. Conhecimentos aprimorados em cursos de grandes empresas de tecnologia, principalmente no Google Business Educational Center e Microsoft. Sócio-proprietário da Streamer, empresa que alia tecnologia e educação. Experiência de 18 anos produzindo e criando objetos de aprendizagem, cursos a distância, design educacional, interfaces para sistemas de aprendizagem. Gestor de equipe para projetos educacionais, no Ensino Básico, Médio e Ensino Superior. Nesse período de trabalho gerenciou equipes e desenvolveu as habilidades de liderança e gestão. Acredita na integração e aplicação prática dos conhecimentos para a realização de projetos inovadores, sólidos e sustentáveis a longo prazo. Um dos grandes sonhos realizados foi o lançamento do curso gratuito Mande Bem no ENEM que atingiu mais de 500 mil estudantes em todo o Brasil contribuindo para a Educação Brasileira.

Participe da nossa comunidade no Whatsapp sobre Educação e Tecnologia

0 comentários

Enviar um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados

As 5 melhores ferramentas de IA para professores

A inteligência artificial está se tornando rapidamente parte integrante de praticamente tudo o que fazemos, e a educação não é exceção. Ela pode realmente ser o animal de estimação dos professores, aumentando a interatividade no aprendizado e "reduzindo a carga de...

Escrita à Mão Aumenta Conexões Cerebrais

Como a escrita tradicional à mão está sendo progressivamente substituída por dispositivos digitais, é essencial investigar as implicações para o cérebro humano. A atividade elétrica cerebral foi registrada em 36 estudantes universitários enquanto eles escreviam à mão...

IA na Educação

O salto para uma nova era de inteligência artificial de máquina traz riscos e desafios, mas também muitas promessas No romance de ficção científica de Neal Stephenson, The Diamond Age (A Era do Diamante), de 1995, os leitores conhecem Nell, uma jovem que recebe um...

As 10 melhores ferramentas de IA para estudantes

A Inteligência Artificial (IA) tem se tornado cada vez mais predominante em vários setores, e a educação não é exceção. Com o rápido avanço da tecnologia, graças a empresas como a Open AI, as ferramentas de IA surgiram como recursos valiosos para os estudantes que...

Seis perguntas que ditarão o futuro da IA generativa

A IA generativa tomou o mundo de assalto em 2023. Seu futuro - e o nosso - será moldado pelo que fizermos a seguir. Foi uma pessoa desconhecida que me mostrou pela primeira vez o quão grande seria a mudança de vibração deste ano. Enquanto esperávamos juntas por um...

Tag Cloud

Posts Relacionados

IA na Educação

IA na Educação

O salto para uma nova era de inteligência artificial de máquina traz riscos e desafios, mas também muitas promessas No...

Receba a nossa newsletter

Fique por dentro e seja avisado dos novos conteúdos.

Publicações mais recentes