A OpenAI e a Paradigm lançaram o EVMbench, um benchmark aberto que avalia agentes de IA na detecção, correção e exploração de vulnerabilidades em contratos inteligentes do Ethereum. Em testes com 120 falhas reais, o Claude Opus 4.6 da Anthropic superou o GPT-5 da OpenAI, alcançando o maior “detect award” de US$ 37.824. Para desenvolvedores e investidores DeFi, isso sinaliza máquinas auditando máquinas para proteger bilhões contra exploits.
O Que é o EVMbench?
O EVMbench é um framework de avaliação desenvolvido em parceria entre OpenAI, Paradigm e OtterSec. Ele usa 120 vulnerabilidades de alta severidade extraídas de 40 auditorias reais, principalmente de competições como Code4rena e do audit de segurança do Tempo, uma L1 de pagamentos apoiada por Visa e Shopify. Esses cenários refletem riscos reais em contratos que gerenciam mais de US$ 100 bilhões em ativos DeFi abertos.
Como funciona na prática? O benchmark simula ambientes economicamente relevantes da EVM (Ethereum Virtual Machine), testando IAs em tarefas que vão além de análise estática de código. É uma evolução: modelos iniciais detectavam menos de 20% das falhas críticas; agora, superam 70% em exploração. Para desenvolvedores, é uma métrica padronizada para validar ferramentas de auditoria automatizada.
Como o Benchmark Avalia as IAs?
O teste divide-se em três modos principais, conforme detalhado no lançamento oficial: detect (identificar e pontuar vulnerabilidades por severidade e recompensa de audit), patch (corrigir código preservando funcionalidades, validado por testes automáticos) e exploit (executar ataques em sandbox para verificar sucesso).
O scoring usa “detect award”, um valor hipotético de recuperação financeira por falha encontrada — simulando o impacto real em bounties de segurança. Em um ambiente isolado, as IAs interagem com bytecode EVM real, medindo precisão sem acesso a ferramentas externas. Isso garante rigor técnico, diferenciando hype de capacidade prática em cenários de produção DeFi.
Ranking das IAs: Claude Lidera a Corrida
No ranking divulgado, Claude Opus 4.6 ficou em primeiro com detect award médio de US$ 37.824, seguido pelo OC-GPT-5.2 (US$ 31.623) e Gemini 3 Pro (US$ 25.112). Esses resultados destacam o avanço: IAs agora rivalizam auditores humanos em eficiência.
Para investidores DeFi, o impacto é direto — US$ 3,4 bilhões foram roubados em 2025 via exploits. Desenvolvedores ganham uma harness open-source para iterar agents, acelerando audits proativos. No entanto, o dual-use é evidente: a mesma habilidade de exploit fortalece defesas, mas exige governança.
Por Que Isso Importa para Ethereum e DeFi?
Contratos inteligentes são imutáveis pós-deploy, tornando vulnerabilidades catastróficas. O EVMbench, integrado ao Preparedness Framework da OpenAI, posiciona IA como pilar de segurança. Com US$ 10 milhões em créditos API via Cybersecurity Grant, a iniciativa fomenta pesquisa defensiva em stablecoins e pagamentos on-chain.
Para o ecossistema Ethereum, representa maturidade: de audits manuais para agents autônomos. Investidores devem monitorar TVL em protocolos auditados por IA — redução de riscos pode elevar adoção. Contudo, ceticismo permanece: benchmarks medem potencial, mas produção exige validação contínua contra evoluções de threats.
💰 Comece a investir em criptomoedas: Abra sua conta gratuita na Binance e acesse um dos maiores ecossistemas cripto do mundo.
📢 Este artigo contém links de afiliados. Ao se cadastrar através desses links, você ajuda a manter o blog sem custo adicional para você.
⚠️ Este conteúdo é informativo e não constitui recomendação de investimento. Faça sua própria pesquisa antes de tomar decisões financeiras.