GDPval

OpenAI: GPT-5 encosta em humanos em novo teste

Benchmark GDPval compara IA e profissionais em 44 ocupações e 9 setores

Foto: Reprodução
Foto: Reprodução

A OpenAI apresentou o GDPval, um benchmark que mede quão perto seus modelos estão do trabalho humano em tarefas economicamente valiosas. Na primeira rodada (GDPval-v0), que cobre 44 ocupações em nove setores, de saúde e finanças a governo e manufatura, o GPT-5-high foi avaliado como melhor ou igual a especialistas em 40,6% dos casos. A Anthropic também foi testada: o Claude Opus 4.1 empatou ou venceu 49% das vezes, resultado que a OpenAI atribui, em parte, ao apelo visual de gráficos produzidos pelo modelo.

O desenho do GDPval-v0 é direto: profissionais experientes comparam relatórios criados por humanos e por IA e escolhem o melhor. Isso dá um termômetro de qualidade de análise e escrita, mas não captura grande parte do trabalho real, interação com clientes, tomada de decisão sob ambiguidade, acompanhamento de projetos, negociação e responsabilidade por consequências. A própria OpenAI afirma que versões futuras incluirão fluxos interativos e mais setores, reconhecendo os limites desta primeira fotografia.

OpenAI e o copiloto de tarefas

15 meses, o GPT-4o obtinha 13,7% (vitórias + empates) no mesmo recorte. O salto do GPT-5 triplica esse patamar e sugere aceleração na curva de capacidade. Segundo a OpenAI, a utilidade prática já aparece como copiloto de tarefas: descarregar partes repetitivas do trabalho para liberar tempo a atividades de maior valor.

Se o desempenho em redação analítica continuar subindo e migrar para contextos interativos, áreas de finanças podem acelerar:

  • Research e sell-side: rascunhos de cenários setoriais, screening de empresas e consolidação de dados.
  • Risco e compliance: geração de narrativas explicáveis a partir de alertas, com trilhas de auditoria.
  • Tesouraria e RI: sumarização de eventos, Q&As e simulações condicionais.

Mas três travas são inegociáveis: métricas de qualidade (precisão, consistência, replicabilidade), governança (fontes, versões, logs) e responsabilidade (quem assina o parecer). Sem isso, benchmarks viram marketing — não produção.

Benchmarks clássicos (AIME, GPQA) estão perto da saturação. Testes como o GDPval tendem a ganhar peso por aproximarem a régua da economia real. Para “superar humanos”, porém, a IA terá de provar valor em decisão com risco, não só em texto bem escrito.

Gabriel Rios

Editor-chefe

Formado em jornalismo pela Universidade Federal da Bahia, também realizou o curso de Jornalismo Econômico do Estadão. Foi editor do BP Money e repórter do Bahia Notícias.

Formado em jornalismo pela Universidade Federal da Bahia, também realizou o curso de Jornalismo Econômico do Estadão. Foi editor do BP Money e repórter do Bahia Notícias.