Bezpečnostní firma OpenZeppelin zpochybnila metodiku a data nového benchmarku EVMbench od OpenAI, který měří schopnosti AI odhalovat a zneužívat chyby ve smart kontraktech. Test vznikl ve spolupráci s fondem Paradigm a rychle zaujal, když na špici žebříčku skončily modely Claude Open 4.6, OC-GPT-5.2 a Gemini 3 Pro. Podle auditu OpenZeppelin ale výsledky může zkreslovat kontaminace tréninkových dat a chybné štítkování závažnosti nálezů.
Audit odhalil kontaminaci dat
OpenZeppelin uvádí, že klíčovou dovedností AI v bezpečnosti je nacházet nové chyby v kódu, který model dříve neviděl. Přesto nejlépe skórující agenti pravděpodobně během pretréninku narazili na stejné reporty zranitelností, z nichž EVMbench čerpá. Během testu sice neměli přístup k internetu, ale dataset vychází z asi 120 auditů z let 2024 až poloviny 2025, což se překrývá s obvyklými znalostními cut-offy těchto modelů. Menší velikost datové sady navíc zvyšuje dopad případné paměťové stopy a snižuje vypovídací hodnotu benchmarku.
Sporné klasifikace zranitelností
Druhým problémem jsou nesprávné klasifikace rizik. OpenZeppelin identifikoval nejméně čtyři případy označené jako vysoce závažné, které však podle něj nelze v praxi zneužít. Navzdory tomu EVMbench uděloval bodové zisky agentům, kteří tyto neplatné scénáře rozpoznali, což narušuje srovnatelnost výsledků. Firma zdůraznila, že na EVMbench aplikovala stejnou přísnost, jakou používá u protokolů typu Aave, Lido či Uniswap.
Co to znamená pro bezpečnost smart kontraktů
AI nepochybně promění auditování smart kontraktů, jenže spolehlivost závisí na kvalitě dat a férových metrikách. OpenZeppelin proto vyzývá k úpravám metodiky, rozšíření a očištění datasetu a k transparentnímu označování reálné exploitovatelnosti. Případná revize může změnit pořadí modelů a lépe odlišit skutečné schopnosti od pouhé paměti. Cílem je, aby benchmarky držely stejný standard jako kontrakty, které mají chránit.


