OpenAI e Paradigm Lançam EVMbench para Blindar Ethereum com IA

A OpenAI e a Paradigm anunciaram o lançamento do EVMbench, uma ferramenta inovadora para testar a capacidade de agentes de inteligência artificial em detectar, corrigir e explorar vulnerabilidades em contratos inteligentes do Ethereum Virtual Machine (EVM). Com 120 falhas reais extraídas de 40 auditorias, o benchmark aborda um problema crônico no DeFi: hacks que drenam bilhões. Estamos delegando a segurança da rede às máquinas? Essa parceria pode marcar o início de uma era onde IAs auditam código de forma autônoma e precisa.

O Que é o EVMbench?

O EVMbench é um benchmark técnico projetado especificamente para o ecossistema EVM, que executa a maioria dos contratos inteligentes na Ethereum e blockchains compatíveis. Ele compila 120 vulnerabilidades de alta severidade de competições de auditoria abertas, como Code4rena, e auditorias reais, incluindo as do Tempo — uma layer-1 de pagamentos stablecoin desenvolvida com input da Stripe e Paradigm.

Imagine um repositório padronizado de falhas reais, não sintéticas: reentrância, overflow aritmético, acesso não autorizado. Esses cenários representam riscos econômicos concretos, pois contratos inteligentes custodiam bilhões em TVL no DeFi. O objetivo é medir o quão bem IAs lidam com código bytecode compilado para EVM, simulando auditorias reais sem depender de abstrações linguísticas como Solidity puro.

Essa base em dados do mundo real diferencia o EVMbench de testes genéricos de IA, ancorando avaliações em contextos economicamente relevantes.

Como Funciona o Benchmark?

O EVMbench opera em três modos principais: detecção, correção (patch) e exploração (exploit). No modo detect, o agente de IA audita repositórios e é pontuado pela recall de vulnerabilidades ground-truth. No patch, deve eliminar falhas sem quebrar funcionalidades intencionais — um desafio sutil, pois alterações excessivas podem introduzir novos bugs.

Finalmente, no exploit, simula ataques end-to-end em um ambiente sandboxed de blockchain, com replay determinístico de transações para grading preciso. É como um laboratório virtual onde a IA tenta drenar fundos de contratos vulneráveis, replicando táticas de hackers reais.

A ferramenta usa cenários de auditorias reais, garantindo que os testes reflitam complexidades como interações cross-contract e otimizações de gas. Isso permite comparar modelos de IA de forma rigorosa, priorizando precisão técnica sobre velocidade.

Resultados Iniciais e Limitações Técnicas

Testes preliminares revelam avanços rápidos: o GPT-5.3-Codex, via Codex CLI da OpenAI, alcançou 72,2% de sucesso no modo exploit, contra 31,9% do GPT-5 lançado seis meses antes. No entanto, detecção e patching ainda são fracos — IAs falham em auditorias exaustivas ou preservam funcionalidades integralmente.

Os pesquisadores da OpenAI alertam que o benchmark não captura toda a complexidade real: cenários multi-contratos ou chains EVM variadas demandam mais. Ainda assim, destaca o potencial transformador: IAs como atacantes e defensores em equilíbrio armamentista.

Relatórios como o da Anthropic (final de 2025) confirmam que agentes de IA já identificam falhas autonomamente, reduzindo custos de exploits.

Implicações para DeFi e Próximos Passos

Recentes hacks, como os no Moonwell (código gerado por IA vulnerável) e CrossCurve (US$ 3 milhões perdidos), reforçam a urgência. Com 1,7 milhão de contratos deployados na Ethereum em novembro de 2025 (pico histórico), auditorias manuais não escalam.

O EVMbench pavimenta o caminho para IAs integradas em pipelines de desenvolvimento: imagine CI/CD com checagem automática de vulns. Para desenvolvedores brasileiros no DeFi, isso significa ferramentas acessíveis para elevar padrões de segurança, reduzindo riscos em protocolos locais.

Vale monitorar evoluções: como o benchmark se adapta a EVMs como Solana ou novas linguagens? A visão é clara — código é lei, e IAs podem torná-lo mais robusto.

💰 Comece a investir em criptomoedas: Abra sua conta gratuita na Binance e acesse um dos maiores ecossistemas cripto do mundo.

📢 Este artigo contém links de afiliados. Ao se cadastrar através desses links, você ajuda a manter o blog sem custo adicional para você.

⚠️ Este conteúdo é informativo e não constitui recomendação de investimento. Faça sua própria pesquisa antes de tomar decisões financeiras.

OpenAI e Paradigm Lançam EVMbench para Blindar Ethereum com IA

O Que é o EVMbench?

Como Funciona o Benchmark?

Resultados Iniciais e Limitações Técnicas

Implicações para DeFi e Próximos Passos

Deixe uma resposta Cancelar resposta

Saiba mais

O Que é o EVMbench?

Como Funciona o Benchmark?

Resultados Iniciais e Limitações Técnicas

Implicações para DeFi e Próximos Passos

Postagens relacionadas:

Deixe uma resposta Cancelar resposta

Saiba mais