OpenZeppelin odhalil chyby v benchmarku EVMbench od OpenAI

Bezpečnostní firma OpenZeppelin zpochybnila metodiku a data nového benchmarku EVMbench od OpenAI, který měří schopnosti AI odhalovat a zneužívat chyby ve smart kontraktech. Test vznikl ve spolupráci s fondem Paradigm a rychle zaujal, když na špici žebříčku skončily modely Claude Open 4.6, OC-GPT-5.2 a Gemini 3 Pro. Podle auditu OpenZeppelin ale výsledky může zkreslovat kontaminace tréninkových dat a chybné štítkování závažnosti nálezů.

Audit odhalil kontaminaci dat

OpenZeppelin uvádí, že klíčovou dovedností AI v bezpečnosti je nacházet nové chyby v kódu, který model dříve neviděl. Přesto nejlépe skórující agenti pravděpodobně během pretréninku narazili na stejné reporty zranitelností, z nichž EVMbench čerpá. Během testu sice neměli přístup k internetu, ale dataset vychází z asi 120 auditů z let 2024 až poloviny 2025, což se překrývá s obvyklými znalostními cut-offy těchto modelů. Menší velikost datové sady navíc zvyšuje dopad případné paměťové stopy a snižuje vypovídací hodnotu benchmarku.

Sporné klasifikace zranitelností

Druhým problémem jsou nesprávné klasifikace rizik. OpenZeppelin identifikoval nejméně čtyři případy označené jako vysoce závažné, které však podle něj nelze v praxi zneužít. Navzdory tomu EVMbench uděloval bodové zisky agentům, kteří tyto neplatné scénáře rozpoznali, což narušuje srovnatelnost výsledků. Firma zdůraznila, že na EVMbench aplikovala stejnou přísnost, jakou používá u protokolů typu Aave, Lido či Uniswap.

Co to znamená pro bezpečnost smart kontraktů

AI nepochybně promění auditování smart kontraktů, jenže spolehlivost závisí na kvalitě dat a férových metrikách. OpenZeppelin proto vyzývá k úpravám metodiky, rozšíření a očištění datasetu a k transparentnímu označování reálné exploitovatelnosti. Případná revize může změnit pořadí modelů a lépe odlišit skutečné schopnosti od pouhé paměti. Cílem je, aby benchmarky držely stejný standard jako kontrakty, které mají chránit.

OpenZeppelin odhalil chyby v benchmarku EVMbench od OpenAI

Audit odhalil kontaminaci dat

Sporné klasifikace zranitelností

Co to znamená pro bezpečnost smart kontraktů

Novinky

Americký zákon o struktuře kryptotrhu před volbami vázně

Energym virál, reálné škrty a sázka na krypto AI agenty

Fed může tisknout peníze kvůli Íránu, míní Arthur Hayes

Trump Media zvažuje spinoff Truth Social, krypto roste

X povoluje placenou propagaci krypta, v EU a UK platí výjimky

Mohlo by vás také zajímat

Americký zákon o struktuře kryptotrhu před volbami vázně

Energym virál, reálné škrty a sázka na krypto AI agenty

Fed může tisknout peníze kvůli Íránu, míní Arthur Hayes