Home Tech Especialistas criam o 'Último Exame da Humanidade' para derrotar a poderosa tecnologia...

Especialistas criam o 'Último Exame da Humanidade' para derrotar a poderosa tecnologia de IA

13
0

Uma equipe de especialistas em tecnologia fez um chamado global na segunda-feira buscando as perguntas mais difíceis a serem feitas aos sistemas de inteligência artificial, que cada vez mais lidam com testes de referência populares, como brincadeira de criança.

Apelidado de “Último Exame da Humanidade”, o projeto busca determinar quando a IA de nível especializado chegou. Ele visa permanecer relevante mesmo com o avanço das capacidades nos próximos anos, de acordo com os organizadores, uma organização sem fins lucrativos chamada Center for AI Safety (CAIS) e a startup Scale AI.

O apelo foi feito dias após o criador do ChatGPT apresentar um novo modelo, conhecido como OpenAI o1, que “destruiu os benchmarks de raciocínio mais populares”, disse Dan Hendrycks, diretor executivo da CAIS e consultor da startup xAI de Elon Musk.

Hendrycks foi coautor de dois artigos de 2021 que propuseram testes de sistemas de IA que agora são amplamente usados, um questionando-os sobre conhecimento de nível de graduação de tópicos como história dos EUA, o outro sondando a capacidade dos modelos de raciocinar por meio de matemática de nível de competição. O teste de estilo de graduação tem mais downloads do hub de IA online Hugging Face do que qualquer conjunto de dados desse tipo.

Na época desses artigos, a IA estava dando respostas quase aleatórias para perguntas nos exames. “Eles agora estão esmagados”, disse Hendrycks à Reuters.

Por exemplo, os modelos Claude do laboratório de IA Anthropic passaram de uma pontuação de cerca de 77% no teste de graduação em 2023 para quase 89% um ano depois, de acordo com uma importante tabela de classificação de capacidades.

Como resultado, esses parâmetros comuns têm menos significado.

A IA pareceu pontuar mal em testes menos usados ​​envolvendo formulação de planos e quebra-cabeças de reconhecimento de padrões visuais, de acordo com o Relatório do Índice de IA da Universidade de Stanford de abril. O OpenAI o1 pontuou cerca de 21% em uma versão do teste de reconhecimento de padrões ARC-AGI, por exemplo, disseram os organizadores do ARC na sexta-feira.

Alguns pesquisadores de IA argumentam que resultados como esse mostram que planejamento e raciocínio abstrato são melhores medidas de inteligência, embora Hendrycks tenha dito que o aspecto visual do ARC o torna menos adequado para avaliar modelos de linguagem. “O Último Exame da Humanidade” exigirá raciocínio abstrato, ele disse.

Respostas de benchmarks comuns também podem ter acabado em dados usados ​​para treinar sistemas de IA, disseram observadores da indústria. Hendrycks disse que algumas perguntas sobre “Humanity's Last Exam” permanecerão privadas para garantir que as respostas dos sistemas de IA não sejam de memorização.

O exame incluirá pelo menos 1.000 questões crowdsourced com vencimento em 1º de novembro que são difíceis para não especialistas responderem. Elas passarão por revisão por pares, com as submissões vencedoras oferecidas coautoria e prêmios de até US$ 5.000 patrocinados pela Scale AI.

“Precisamos desesperadamente de testes mais rigorosos para modelos de nível especializado para medir o rápido progresso da IA”, disse Alexandr Wang, CEO da Scale.

Uma restrição: os organizadores não querem perguntas sobre armas, que alguns dizem que seriam perigosas demais para serem estudadas pela IA.

Mais uma coisa! Agora estamos nos Canais do WhatsApp! Siga-nos lá para não perder nenhuma atualização do mundo da tecnologia. ‎Para seguir o canal HT Tech no WhatsApp, clique aqui para se juntar agora!

Source link