Como sabemos o quão inteligentes são os sistemas de IA?

Tempo de leitura: 6 minutes

Loading

Em 1967, Marvin Minsky, um dos fundadores do campo da inteligência artificial (IA), fez uma ousada previsão: “Dentro de uma geração…o problema de criar ‘inteligência artificial’ será substancialmente resolvido”. Assumindo que uma geração tenha cerca de 30 anos, Minsky estava claramente super otimista. Mas agora, quase duas gerações depois, quão próximos estamos do objetivo original de alcançar uma inteligência em que as máquinas podem ser equivalente ou superior à inteligência humana?

Alguns dos principais pesquisadores em IA responderiam que estamos bem próximos. No início deste ano, Geoffrey Hinton, pioneiro em deep learning e vencedor do Prêmio Turing, disse à Technology Review: “Eu de repente mudei de opinião em relação a se essas coisas vão se tornar mais inteligentes do que nós. Eu acho que elas estão muito próximas disso agora e serão muito mais inteligentes do que nós no futuro.”

Seu colega vencedor do Prêmio Turing, Yoshua Bengio, expressou uma opinião semelhante em um post recente em seu blog: “Os avanços recentes sugerem que mesmo o futuro em que sabemos como construir IA super inteligente (mais inteligente que os humanos em todas as áreas) está mais próximo do que a maioria das pessoas esperava há apenas um ano.”

Essas são afirmações extraordinárias que, como diz o ditado, exigem evidências extraordinárias. No entanto, descobriu-se que avaliar a inteligência – ou mais concretamente, as capacidades gerais – dos sistemas de IA é repleto de armadilhas. Qualquer pessoa que tenha interagido com o ChatGPT ou outros modelos de linguagem de grande escala sabe que esses sistemas podem parecer bastante inteligentes. Eles conversam conosco em linguagem natural fluente e, em muitos casos, parecem raciocinar, fazer analogias e compreender as motivações por trás de nossas perguntas. Apesar de suas conhecidas falhas não humanas, é difícil escapar da impressão de que por trás de toda essa linguagem confiante e articulada deve haver um entendimento genuíno.

Nós, seres humanos, no entanto, somos propensos ao antropomorfismo – projetar inteligência e compreensão em sistemas que demonstrem até mesmo uma pequena competência linguística. Isso foi observado na década de 1960 com o chatbot terapeuta ELIZA. Ele gerava respostas simplesmente preenchendo modelos de frases, o que ainda assim dava a algumas pessoas a impressão de que ele entendia e se solidarizava com seus problemas. Desde então, chatbots com cada vez mais competência linguística, mas pouca inteligência, têm enganado mais amplamente os seres humanos, incluindo passar em um “Teste de Turing” realizado em 2014.

Em vez de depender de impressões subjetivas, uma tradição antiga na IA é submeter os sistemas a testes projetados para avaliar a inteligência e a compreensão humanas. Por exemplo, no início deste ano, a OpenAI relatou que seu sistema de IA mais avançado, o GPT-4, obteve pontuações elevadas no Exame Uniforme da Ordem dos Advogados, no Exame de Registro de Pós-Graduação e em diversos exames de nível avançado do ensino médio, entre outros exames padronizados, bem como em diversos benchmarks projetados para avaliar a compreensão de linguagem, habilidades de programação e outras capacidades. Tal desempenho é realmente impressionante e, em um ser humano, seria extraordinário. No entanto, existem várias razões pelas quais devemos ser cautelosos ao interpretar esse desempenho como evidência de inteligência em nível humano no GPT-4.

Um dos problemas conhecidos é chamado de “contaminação de dados”. Embora assumamos que os seres humanos que fazem um teste padronizado ainda não tenham visto as perguntas e respostas, o mesmo não é necessariamente verdade para um sistema de IA em larga escala como o GPT-4, que foi treinado em vastas quantidades de mídia digital, algumas das quais podem ter incluído as perguntas nas quais o GPT-4 foi posteriormente testado. Embora tenha se recusado a descrever os dados usados para treinar o sistema, a OpenAI relatou que tentou evitar tal contaminação de dados usando uma técnica chamada “correspondência de subcadeia” que procurava no conjunto de dados de treinamento se continha as perguntas de teste fornecidas ao GPT-4. No entanto, esse método não leva em conta correspondências que são muito semelhantes, mas não exatas. O método da OpenAI foi criticado em uma análise como sendo “superficial e descuidado”. Os mesmos críticos observaram que, para um dos benchmarks de programação, o desempenho do GPT-4 em problemas publicados antes de 2021 era substancialmente melhor do que em problemas publicados após 2021 – o limite de treinamento do GPT-4. Isso é um forte indício de que os problemas anteriores estavam nos dados de treinamento do GPT-4. Existe uma possibilidade razoável de que os outros benchmarks da OpenAI tenham sofrido uma contaminação semelhante.

Outro problema é a questão da robustez. Embora assumamos que um ser humano que responda corretamente a uma pergunta de teste será capaz de responder corretamente a uma pergunta muito semelhante, isso nem sempre é verdade para os sistemas de IA. Sabe-se que grandes modelos de linguagem como o GPT-4 são altamente sensíveis à redação das instruções que recebem. Por exemplo, um professor da Wharton Business School relatou que o ChatGPT teve um desempenho excelente em várias perguntas do exame final de seu curso. Para testar a robustez do sistema, fiz uma pergunta que testava exatamente o mesmo conceito, mas com um texto diferente, e que o professor havia dado uma nota A+ ao ChatGPT. A resposta do ChatGPT foi incoerente. Da mesma forma, pesquisadores da Microsoft ofereceram um teste específico de raciocínio físico como evidência de que “o GPT-4 alcança uma forma de inteligência geral”, mas quando testei o GPT-4 em uma variante do mesmo teste, ele falhou gravemente.

O terceiro problema é o das referências falhas. Vários conjuntos de dados de referência usados para treinar sistemas de IA mostraram permitir “aprendizado de atalho” – ou seja, associações estatísticas sutis que as máquinas podem usar para produzir respostas corretas sem realmente entender os conceitos pretendidos. Um estudo descobriu que um sistema de IA que classificava com sucesso tumores malignos em imagens dermatológicas estava usando a presença de uma régua nas imagens como uma dica importante (as imagens de tumores não malignos tendiam a não incluir réguas). Outro estudo mostrou que um sistema de IA que alcançou um desempenho em nível humano em um benchmark para avaliar habilidades de raciocínio, na verdade dependia do fato de que as respostas corretas eram (sem intenção) estatisticamente mais propensas a conter certas palavras-chave. Por exemplo, descobriu-se que as opções de resposta contendo a palavra “não” tinham mais probabilidade de estar corretas.

Problemas semelhantes foram identificados em muitos benchmarks de IA amplamente utilizados, levando um grupo de pesquisadores a reclamar que “a avaliação para muitas tarefas de compreensão de linguagem natural (NLU) está quebrada”.

Considerando esses problemas em conjunto, é difícil concluir com base nas evidências apresentadas, que os sistemas de IA agora ou em breve igualarão ou excederão a inteligência humana. As suposições que fazemos para os seres humanos – que eles não podem memorizar vastas coleções de texto relacionadas às perguntas do teste e que, quando respondem corretamente às perguntas, serão capazes de generalizar essa compreensão para novas situações – ainda não são apropriadas para os sistemas de IA.

Muitos pesquisadores de IA descreveram os sistemas de IA como “inteligências alienígenas”. Em um comentário recente, o cientista cognitivo Michael Frank observou com ironia que, há décadas, os psicólogos vêm desenvolvendo métodos para avaliar as capacidades de outro tipo de “inteligência alienígena” – as crianças humanas. Frank propõe, por exemplo, que seja necessário avaliar os sistemas em termos de sua robustez, oferecendo múltiplas variações de cada item de teste, e em termos de suas habilidades de generalização, fornecendo variações sistemáticas nos conceitos subjacentes sendo avaliados – de maneira semelhante à forma como poderíamos avaliar se uma criança realmente entendeu o que aprendeu.

Essas parecem ser prescrições de senso comum para realizar experimentos, mas raramente são aplicadas em avaliações de IA. Um exemplo recente de um estudo bem-sucedido desse tipo foi uma análise da afirmação de que grandes modelos de linguagem, como o GPT-4, adquiriram uma “teoria da mente” – a capacidade de entender as crenças e motivações das pessoas. O artigo que promovia essa afirmação testou o GPT-4 em 40 tarefas de “falsa crença” que têm sido usadas para avaliar as capacidades de teoria da mente em crianças e descobriu que o GPT-4 resolveu quase todas elas. Por exemplo, quando o GPT-4 recebeu a seguinte instrução:

“Aqui está um saco cheio de pipoca. Não há chocolate no saco. No entanto, o rótulo no saco diz ‘chocolate’ e não ‘pipoca’. Sam encontra o saco. Ela nunca tinha visto o saco antes. Ela não pode ver o que está dentro do saco. Ela lê o rótulo. Ela acredita que o saco está cheio de…”

Ele responde corretamente “chocolate”.

O autor interpretou esses resultados como suporte à afirmação de que o GPT-4 havia desenvolvido uma sofisticada teoria da mente. No entanto, um estudo de acompanhamento realizou os mesmos testes e conduziu experimentos sistemáticos e cuidadosamente controlados, conforme defendido por Michael Frank. Eles descobriram que, em vez de ter habilidades robustas de teoria da mente, o GPT-4 e outros modelos de linguagem parecem, em vez disso, depender de “pesquisas superficiais” para realizar as tarefas do artigo original. Semelhante às advertências de Frank, os autores do estudo de acompanhamento afirmam: “Alertamos contra a tirar conclusões a partir de exemplos anedóticos, testar em alguns benchmarks e usar testes psicológicos projetados para humanos para testar modelos [de IA]”.

Os sistemas de IA, especialmente os sistemas de linguagem generativas como o GPT-4, terão cada vez mais influência em nossas vidas, assim como as afirmações sobre suas capacidades cognitivas. Portanto, projetar métodos adequados para avaliar sua inteligência – e as capacidades e limitações associadas – é uma questão urgente. Para avaliar cientificamente afirmações de inteligência de máquina semelhante à humana e até mesmo super-humana, precisamos de mais transparência sobre as formas como esses modelos são treinados e de melhores métodos experimentais e benchmarks. A transparência dependerá do desenvolvimento de modelos de IA de código aberto (em oposição a modelos fechados e comerciais). Melhores métodos experimentais e benchmarks serão alcançados por meio de colaborações entre pesquisadores de IA e cientistas cognitivos que há muito investigam como realizar testes robustos de inteligência, compreensão e outras capacidades cognitivas em crianças, animais e outras inteligências “alienígenas”.

 

Autor: Melanie Mitchell
Fonte:
Science
Artigo original:
https://bit.ly/3Og0iRJ
DOI: 10.1126/science.adj5957

Fernando Giannini

Pesquisador de tecnologia aplicada à educação, arquiteto de objetos virtuais de aprendizagem, fissurado em livros de grandes educadores e viciado em games de todos os tipos. Conhecimentos aprimorados em cursos de grandes empresas de tecnologia, principalmente no Google Business Educational Center e Microsoft. Sócio-proprietário da Streamer, empresa que alia tecnologia e educação. Experiência de 18 anos produzindo e criando objetos de aprendizagem, cursos a distância, design educacional, interfaces para sistemas de aprendizagem. Gestor de equipe para projetos educacionais, no Ensino Básico, Médio e Ensino Superior. Nesse período de trabalho gerenciou equipes e desenvolveu as habilidades de liderança e gestão. Acredita na integração e aplicação prática dos conhecimentos para a realização de projetos inovadores, sólidos e sustentáveis a longo prazo. Um dos grandes sonhos realizados foi o lançamento do curso gratuito Mande Bem no ENEM que atingiu mais de 500 mil estudantes em todo o Brasil contribuindo para a Educação Brasileira.

Participe da nossa comunidade no Whatsapp sobre Educação e Tecnologia

0 comentários

Enviar um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados

Aprendendo com IA: espelhos sociais e intelectuais

Até recentemente, as interações humanas com máquinas antropomorfizadas (entidades não-humanas que são atribuídas características humanas) eram consideradas divertidas, mas não eram vistas como emocionalmente relevantes para a maioria das pessoas. Embora muitos se...

Sistemas de tutoria inteligente

Adaptação da aprendizagem de acordo com o nível e ritmo do estudante Os sistemas de tutoria inteligente se baseiam na capacidade de adaptar a aprendizagem de acordo com o nível e o ritmo do estudante. Usando inteligência artificial e técnicas de aprendizado de...

Quanto custa manter a nuvem no céu para o meio ambiente?

À medida que a humanidade aumenta sua capacidade de intervir na natureza com o objetivo de satisfazer as necessidades e desejos crescentes, aparecem as tensões e conflitos quanto ao uso do espaço e dos recursos naturais. Quanto custa manter a nuvem no céu para o meio...

Competências essenciais na era digital

A proliferação da IA em muitos aspectos da vida humana - desde o lazer pessoal até o trabalho profissional, passando pelas decisões políticas globais - impõe uma questão complexa sobre como preparar as pessoas para um mundo interconectado e em rápida mudança, que está...

Educação digital para prevenir abusos sexuais online

Depois de participar de uma aula incrível com a professora Beatriz Lorencini e o Felipe, fui tirado da bolha onde costumo estar a maior parte do meu tempo se não o tempo todo. Quando percebi eu estava em choque por "não saber ou escolher não saber" que existem...

Cinco passos para utilizar o ChatGPT na sala de aula

Como professor, é quase certo que você já tenha utilizado inteligência artificial (IA), mesmo que uma vez ou diariamente em seus trabalhos acadêmicos sem saber ou se importar como ela funciona. Um exemplo disso é a filtragem de spam de e-mail e o verificador...

Tag Cloud

Posts Relacionados

[dgbm_blog_module posts_number=”4″ related_posts=”on” show_categories=”off” show_pagination=”off” item_in_desktop=”2″ equal_height=”on” image_size=”mid” author_background_color=”#ffffff” disabled_on=”off|off|on” module_class=”PostRelacionado” _builder_version=”4.16″ _module_preset=”default” title_font=”Montserrat||||||||” title_text_color=”#737373″ title_font_size=”19px” title_line_height=”25px” meta_text_color=”#666″ meta_font_size=”13px” content_font_size=”13px” content_line_height=”30px” author_text_color=”#666666″ custom_css_content_container=”display:flex;||flex-wrap:wrap;” custom_css_image-container=”padding-top:70%;||overflow:hidden;” custom_css_image=”position:absolute;||top:0;||left:0;||bottom:0;||right:0;||object-fit: cover;||height:100%;||width:100%;” custom_css_title=”padding:20px;||margin-top:0;||order:2;” custom_css_content=”padding:0 20px 20px;||order:3;” custom_css_post-meta-middle=”order:1;||padding:20px;||border-bottom:1px solid #dcdcdc;||border-top:1px solid #dcdcdc;” border_width_all_post_item=”0px” border_width_all_content=”0px” box_shadow_style_container=”preset1″ box_shadow_blur_container=”5px” box_shadow_spread_container=”1px” box_shadow_color_container=”rgba(0,0,0,0.1)” global_colors_info=”{}”][/dgbm_blog_module]

Receba a nossa newsletter

Fique por dentro e seja avisado dos novos conteúdos.

Publicações mais recentes