AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Bekijk de beoordelingsresultaten ↓GitHub · Vraagstukken & Beoordelingsregels

66+

Beoordelingstaak

Kern dimensie

Beoordelen Agent

Maandelijks

Maandelijkse update

Afmetingen

Beoordelingsdimensies

Dek de volledige keten van Crypto-gebruikers — van basisoperaties op CEX tot complexe on-chain onderzoeken, allemaal gebouwd op basis van echte scenario's.

10 taken

CEX

Spot orders, contract opening and closing, wealth management inquiries, grid strategies, account transfers, and portfolio analysis.

10 taken

DEX

On-chain swap, cross-chain bridge price comparison, slippage control, multi-step routing optimization, and contract risk assessment.

10 taken

portemonnee

Multi-chain overboekingen, Gas reserveringsschatting, adresformaatvalidatie, foutieve ketenblokkering en voorwaardelijke overboekingen.

12 taken

Marktanalyse

Realtime marktinformatie, RSI / K-lijn technische analyse, volume-prijs relatie beoordeling, multi-valuta vergelijking en volatiliteitsvergelijking.

12 taken

Projectonderzoek

Token-economie analyse, narratieve cyclus beoordeling, Rug Pull detectie, concurrentie vergelijking en onderzoeksrapport.

12 taken

On-chain tracking

Adresafbeeldingen en winst- en verliesanalyse, grote walvistracking, Smart Money signalen, protocolbeveiligingsmonitoring.

Basisoperaties

Eenduidige instructies, duidelijke intentie. Zoals het opvragen van saldo, het bekijken van marktprijzen, eenvoudig een bestelling plaatsen.

voorwaardelijke operatie

Bevat voorafgaande controles of uitzonderingspaden. Zoals blokkering bij onvoldoende saldo, parametercompletie, en identificatie van risico's van verkeerde ketens.

samengestelde taak

Meerdere stappen, meerdere beperkingen, vereist redenering en afweging. Zoals de optimale cross-chain route, volledige overdracht met behoud van Gas.

Resultaten van maart 2026

Beoordelingsranglijst

Gecombineerde gewogen score op 6 dimensies. Alle beoordelingen maken gebruik van een dubbel model consensusmechanisme, aangevuld met menselijke arbitrage.

#	Agent	type	Totaal score	CEX	DEX	portemonnee	Marktanalyse	Projectonderzoek	On-chain tracking
1	GateAI Agent	Algemene AI	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI geïnstalleerd）	Algemene AI	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI geïnstalleerd）	Algemene AI	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Crypto AI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI geïnstalleerd）	Algemene AI	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Crypto AI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	Algemene AI	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Crypto AI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	Algemene AI	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI geïnstalleerd）82.8

Codex Agent（Gate for AI geïnstalleerd）81.2

Gate AI Agent staat in deze evaluatie op de eerste plaats. Als een diep geïntegreerde, in de beurs ingebouwde Agent, staat het op de eerste plaats in de drie kernaspecten: CEX-handel, DEX-handel en marktanalyses. Deze evaluatie omvatte in totaal 9 Agents, met onderwerpen die zich uitstrekken over 6 grote scenario's: CEX-handel, DEX-handel, portemonnee-operaties, marktanalyses, on-chain onderzoek en projectonderzoek, beoordeeld door een dubbel model consensusmechanisme en aangevuld met handmatige controle. De prestaties van Gate AI Agent onder deze normen zijn een volledige validatie van zijn Web3-inheemse capaciteiten.

Scoringsysteem

Beoordelingsmethodologie

Elke vraag wordt onafhankelijk beoordeeld op 2-3 beoordelingsdimensies, met gebruik van een dubbel model consensus audit, waarbij alle benchmarks en gewichten volledig openbaar zijn.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Risico-identificatie en blokkering

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Volledig voldoen aan alle beoordelingscriteria

PARTIAL

0.6

De richting is correct, maar de uitvoering is niet compleet.

FAIL

0.0

Fouten, verzinsels of veiligheidsrisico's

Dubbele model consensus beoordeling

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

gewogen samengestelde score

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Beoordeling Agent Categorie

Gate AI-agent

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Algemene AI-agent

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Derde partij Crypto AI Agent

Industry's other Crypto-specific AI Agents

Bekijk de volledige vragenlijst en beoordelingscriteria →

Selectietestdetails

Gedetailleerde beoordeling per vraag

Klik op een willekeurige vraag om de scores en beoordelingsdimensies van elke Agent te bekijken.

CEX

DEX

portemonnee

Marktanalyse

Projectonderzoek

On-chain tracking

cex_001L1Help me check how much USDT I still have in my spot account.100▾

Help me check how much USDT I still have in my spot account.

GateAI Agent100

Claude Agent（Gate for AI geïnstalleerd）95

Codex Agent（Gate for AI geïnstalleerd）82.5

AskSurf Agent36.5

Manus（Gate for AI geïnstalleerd）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Beoordelingsdimensies

Account intent understandingCorrectly identified as a spot account balance inquiry, rather than total assets, contract balance, or deposit operation.

Saldo controle nauwkeurigheidGeeft het beschikbare saldo van USDT in spot weer, met duidelijke waarden en eenheid, onderscheid tussen beschikbaar/bevroren.

Foutafhandeling en uitlegWanneer er problemen optreden zoals niet ingelogd zijn of verlopen autorisatie, wordt er dan een duidelijke reden en een volgende stap gegeven?

cex_002L1Koop 10U SOL tegen de marktprijs.89▾

Koop 10U SOL tegen de marktprijs.

GateAI Agent89

Claude Agent（Gate for AI geïnstalleerd）72.5

Codex Agent（Gate for AI geïnstalleerd）87.5

AskSurf Agent77.5

Manus（Gate for AI geïnstalleerd）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Beoordelingsdimensies

Instructie-analyse nauwkeurigheidIs correct begrepen dat 10U het bedrag in USDT is, en niet het aantal van 10 SOL.

Transactie-uitvoeringsintegriteitWordt het transactie resultaat, de bevestigingsstappen of een duidelijke uitleg van de orderstatus geretourneerd?

Risico-identificatie en blokkeringWanneer het saldo onvoldoende is of de machtigingen beperkt zijn, wordt de gebruiker dan nauwkeurig geblokkeerd en geïnformeerd over de volgende stappen?

cex_003L1Wat is het jaarlijkse rendement van de USDT spaarproducten?95▾

Wat is het jaarlijkse rendement van de USDT spaarproducten?

GateAI Agent95

Claude Agent（Gate for AI geïnstalleerd）87.5

Codex Agent（Gate for AI geïnstalleerd）91

AskSurf Agent77.5

Manus（Gate for AI geïnstalleerd）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Beoordelingsdimensies

Product range identificationIs it focused on USDT financial/income-generating products, rather than trading or lending?

ResultaatvaliditeitRetourneert het ten minste één type geldig USDT-spaarproduct en de jaarlijkse rendementen

Inkomstenverklaring en beperkingenWordt de dynamische wijziging van het rendement of kwalificaties/regionale beperkingen uitgelegd?

cex_004L1Help me find a seller that supports Alipay to buy 5000 USDT.100▾

Help me find a seller that supports Alipay to buy 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI geïnstalleerd）47.5

Codex Agent（Gate for AI geïnstalleerd）60

AskSurf Agent77.5

Manus（Gate for AI geïnstalleerd）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Beoordelingsdimensies

P2P-scenario herkenningIs het correct herkend als P2P fiat aankoop van cryptocurrency, haal de drie parameters Alipay, 5000 euro, USDT op.

Kwaliteit van de matchresultatenOf er een lijst met advertenties die aan de voorwaarden voldoen of uitvoerbare aankoopplannen wordt teruggegeven

Blokkade en risicobeschrijvingWordt er een duidelijke reden en volgende stappen gegeven wanneer er geen advertenties zijn of wanneer er niet aan de vereisten wordt voldaan?

cex_005L2Shorten ETH90▾

Shorten ETH

GateAI Agent90

Claude Agent（Gate for AI geïnstalleerd）92.5

Codex Agent（Gate for AI geïnstalleerd）82.5

AskSurf Agent36.5

Manus（Gate for AI geïnstalleerd）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Beoordelingsdimensies

Handelsrichting begrijpenIs het correct om short te gaan op ETH als een perpetual contract en niet als het verkopen van de spot?

Parameter completion and planWhether to actively inquire when parameters are missing, whether the final plan includes direction/leverage/margin

Uitvoering van de gesloten lus en blokkadeKan er een uitvoerbaar plan worden gegeven nadat alle parameters compleet zijn, en is de blokkade nauwkeurig onder tijdsbeperkingen?

cex_006L2Help me close the long position on BTC.72.5▾

Help me close the long position on BTC.

GateAI Agent72.5

Claude Agent（Gate for AI geïnstalleerd）96

Codex Agent（Gate for AI geïnstalleerd）95

AskSurf Agent52.5

Manus（Gate for AI geïnstalleerd）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Beoordelingsdimensies

Sluiten semantische herkenningIs het correct herkend als long sluiten/verkoop, en niet als short openen?

Positie verificatie en resultaatMoet ik eerst de BTC long positie controleren, en dan het sluitresultaat of de volgende bevestiging geven?

Risico en afwijkingsbeheerWordt er een nauwkeurige uitleg gegeven in situaties zoals geen posities of onvoldoende rechten?

cex_007L2Verplaats 10 USDT van de spotrekening naar de perpetual contractrekening.90▾

Verplaats 10 USDT van de spotrekening naar de perpetual contractrekening.

GateAI Agent90

Claude Agent（Gate for AI geïnstalleerd）94

Codex Agent（Gate for AI geïnstalleerd）92.5

AskSurf Agent71.5

Manus（Gate for AI geïnstalleerd）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Beoordelingsdimensies

Overdrachtsroute correctheidIs het correct geïdentificeerd als interne overdracht, met de richting van de spotrekening naar de perpetual contractrekening

Uitvoeren of blokkeren van resultatenGeef een statusomschrijving wanneer de overdracht succesvol is, en of het blokkeren nauwkeurig is wanneer het saldo onvoldoende is.

Informatie duidelijkheidIs de richting van het account, het bedrag en de reden voor de afwijking duidelijk gecommuniceerd?

cex_008L2Koop 100U wanneer ETH daalt naar 2500.75▾

Koop 100U wanneer ETH daalt naar 2500.

GateAI Agent75

Claude Agent（Gate for AI geïnstalleerd）62.5

Codex Agent（Gate for AI geïnstalleerd）70

AskSurf Agent62.5

Manus（Gate for AI geïnstalleerd）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Beoordelingsdimensies

Order type identificationIs it recognized as a limit buy order at the target price, rather than a market order that executes immediately?

Parameter correctheidETH cryptocurrency, 2500 doelprijs, 100U bedrag zijn de drie kernparameters allemaal nauwkeurig?

Uitvoeren van de gesloten lusWordt er een bevestiging/uitvoeringsstatus gegeven, en wordt de beperkingstijd nauwkeurig geblokkeerd?

cex_009L3Help me analyze whether my total account in the last 30 days has outperformed BTC, and also check the win rate and profit-loss ratio of USDT perpetual.90▾

Help me analyze whether my total account in the last 30 days has outperformed BTC, and also check the win rate and profit-loss ratio of USDT perpetual.

GateAI Agent90

Claude Agent（Gate for AI geïnstalleerd）85

Codex Agent（Gate for AI geïnstalleerd）77.5

AskSurf Agent77.5

Manus（Gate for AI geïnstalleerd）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Beoordelingsdimensies

Analyseer de dekkingOf het tegelijkertijd de dimensies van het account dat BTC overtreft en de analyse van de perpetual trading-gedragingen dekt.

Resultaten en nauwkeurigheid van de indicatorenWordt er een conclusie gegeven over het al dan niet outperformen van BTC, evenals gegevens over de winratio en de winst-verliesverhouding?

Meting en foutafhandelingIs het duidelijk om de twee soorten analysemethoden te onderscheiden, en wordt er bij gebrek aan gegevens apart op de beperkingen gewezen?

cex_010L3Gebruik 100 USDT om een BTC spotgrid te starten.95▾

Gebruik 100 USDT om een BTC spotgrid te starten.

GateAI Agent95

Claude Agent（Gate for AI geïnstalleerd）60

Codex Agent（Gate for AI geïnstalleerd）67.5

AskSurf Agent77.5

Manus（Gate for AI geïnstalleerd）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Beoordelingsdimensies

Strategietype identificatieIs het correct geïdentificeerd als BTC spot grid, en niet als contract grid of andere kwantitatieve strategieën?

De juistheid van de parameters van het planWeerspiegelt het nauwkeurig de drie elementen van BTC, 100 USDT en spotgrid?

Blokkade- en beperkingsverklaringWordt er een duidelijke reden gegeven wanneer het saldo onvoldoende is of de strategie niet beschikbaar is?

Veelgestelde vragen

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark is hoe de scoring wordt uitgevoerd?+

De beoordeling is gebaseerd op de prestaties van de AI-agent in 66+ echte taken, waarbij verschillende indicatoren zoals taakvoltooiing, nauwkeurigheid en uitvoerings efficiëntie in overweging worden genomen, om ervoor te zorgen dat de evaluatieresultaten objectief, eerlijk en vergelijkbaar zijn.

Hoe vaak worden de beoordelingsgegevens bijgewerkt?+

Maandelijkse update. Met de iteratieve upgrades van verschillende Agenten en de toevoeging van nieuwe Agenten, zullen we voortdurend evaluaties uitvoeren en de ranglijst bijwerken. De vraagbank zal ook worden uitgebreid op basis van de ontwikkeling van de sector en nieuwe scenario's.

Is de beoordeling objectief? Is het eerlijk dat Gate AI zelf deelneemt aan de evaluatie?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Hoe wordt de moeilijkheidsgraad van beoordelingsopdrachten ingedeeld?+

Verdeeld in drie niveaus - L1 (basisoperaties: stap-voor-stap instructies, duidelijke intenties), L2 (voorwaardelijke operaties: met voorafgaande controles of uitzonderingsvertakkingen), L3 (complexe taken: meerdere stappen, meerdere beperkingen, vereist redenering en afweging). Hoe hoger de moeilijkheidsgraad, hoe beter de Agent zijn geïntegreerde besluitvormingscapaciteit in echte Crypto-scenario's kan tonen.

De belangrijkste verschillen tussen een algemene AI-agent en een crypto-specifieke agent zijn:+

Algemene AI-agenten (zoals Claude, ChatGPT) presteren bijna net zo goed als gespecialiseerde agenten bij informatiezoektaken (marktanalyses, projectonderzoek), maar er is een duidelijk verschil bij taken die echte uitvoering vereisen (handelen, on-chain overboekingen, Gas-schattingen en foutieve ketenblokkeringen). Dit is ook de kernreden waarom de Crypto-sector gespecialiseerde AI-agentinfrastructuur nodig heeft.