
A OpenAI apresentou o GDPval, um benchmark que mede quão perto seus modelos estão do trabalho humano em tarefas economicamente valiosas. Na primeira rodada (GDPval-v0), que cobre 44 ocupações em nove setores, de saúde e finanças a governo e manufatura, o GPT-5-high foi avaliado como melhor ou igual a especialistas em 40,6% dos casos. A Anthropic também foi testada: o Claude Opus 4.1 empatou ou venceu 49% das vezes, resultado que a OpenAI atribui, em parte, ao apelo visual de gráficos produzidos pelo modelo.
O desenho do GDPval-v0 é direto: profissionais experientes comparam relatórios criados por humanos e por IA e escolhem o melhor. Isso dá um termômetro de qualidade de análise e escrita, mas não captura grande parte do trabalho real, interação com clientes, tomada de decisão sob ambiguidade, acompanhamento de projetos, negociação e responsabilidade por consequências. A própria OpenAI afirma que versões futuras incluirão fluxos interativos e mais setores, reconhecendo os limites desta primeira fotografia.
OpenAI e o copiloto de tarefas
Há 15 meses, o GPT-4o obtinha 13,7% (vitórias + empates) no mesmo recorte. O salto do GPT-5 triplica esse patamar e sugere aceleração na curva de capacidade. Segundo a OpenAI, a utilidade prática já aparece como copiloto de tarefas: descarregar partes repetitivas do trabalho para liberar tempo a atividades de maior valor.
Se o desempenho em redação analítica continuar subindo e migrar para contextos interativos, áreas de finanças podem acelerar:
- Research e sell-side: rascunhos de cenários setoriais, screening de empresas e consolidação de dados.
- Risco e compliance: geração de narrativas explicáveis a partir de alertas, com trilhas de auditoria.
- Tesouraria e RI: sumarização de eventos, Q&As e simulações condicionais.
Mas três travas são inegociáveis: métricas de qualidade (precisão, consistência, replicabilidade), governança (fontes, versões, logs) e responsabilidade (quem assina o parecer). Sem isso, benchmarks viram marketing — não produção.
Benchmarks clássicos (AIME, GPQA) estão perto da saturação. Testes como o GDPval tendem a ganhar peso por aproximarem a régua da economia real. Para “superar humanos”, porém, a IA terá de provar valor em decisão com risco, não só em texto bem escrito.