Novo Banco de Dados Avalia Inteligência Artificial com Precisão
Pesquisadores de mais de 40 países, incluindo o Brasil, lançaram um banco de dados inovador para testar sistemas de inteligência artificial com alta precisão. Denominada Humanity’s Last Exam (HLE, ou Último Exame da Humanidade), essa ferramenta contém 2,5 mil questões distribuídas em diversas áreas do conhecimento e foi apresentada em um artigo publicado na revista Nature em janeiro.
Objetivo e Funcionamento do HLE
O HLE visa medir o progresso dos modelos de IA, especialmente os Large Language Models (LLMs), que processam e geram texto de maneira semelhante à linguagem humana. Quando empresas como a OpenAI, criadora do ChatGPT, lançam novos modelos, elas frequentemente comparam seu desempenho em benchmarks como SWE-Bench e FrontierMath. Com a introdução do HLE, surge uma nova referência para essas métricas.
Benchmark Supremo para Avaliação de Modelos
Os pesquisadores definem o HLE como o “benchmark supremo”. À medida que novos modelos de IA são desenvolvidos, será possível avaliar sua evolução com base no desempenho no HLE e em exames semelhantes. O Humanity’s Last Exam abrange questões de matemática, ciências naturais, humanidades e outras disciplinas, destacando-se por oferecer respostas finais claramente definidas e de fácil verificação.
Avaliação Abrangente de Habilidades
Na prática, os pesquisadores podem criar scripts para submeter os modelos de IA às questões com instruções padronizadas. O sistema extrai a resposta gerada pelo modelo e a compara com o gabarito oficial, calculando a taxa de acertos. Isso permite mensurar o desempenho do modelo em um amplo conjunto de habilidades, desde conhecimento geral, como história da humanidade, até competências técnicas avançadas.
Acesso Público e Implicações da Pesquisa
O HLE está disponível para uso público no site lastexam.ai, podendo apoiar tanto pesquisas acadêmicas quanto a formulação de políticas públicas, ao oferecer um parâmetro para entender as capacidades atuais dos modelos de IA. O artigo intitulado “A benchmark of expert-level academic questions to assess AI capabilities” foi assinado por instituições como o Center for AI Safety e a Scale AI, além de contar com a colaboração de pesquisadores da USP.
Fonte por: Convergencia Digital
