Služba Chatbot Arena, ve které lidé anonymně srovnávají výstupy AI, má oddělený projekt zaměřený na využití chatbotů pro vývoj. Ve WebDev Arena (web.lmarena.ai) pomocí stejných principů porovnává jejich schopnosti samostatného kódování.
Oživeno 26. března 2025 | Ve výsledcích se objevil nový Google Gemini 2.5 Pro.
Na webu uvidíte jen pole, do kterého napíšete zadání, co má AI naprogramovat. Běží pod ním návrhy, na které stačí kliknout, kdyby vás zrovna nic nenapadalo. Služba potom vybere dva modely, problém jim předhodí, vy sledujete, jak pracují a v závěru ukážou spustitelný výsledek.

Až bude hotovo, posoudíte a označíte, který model si se zadáním poradil lépe. Nebo že jsou na tom oba podobně, případně že oba dva výsledky jsou špatné. Aby srovnání bylo neovlivněné, teprve potom zjistíte, které konkrétní modely v aréně soupeřily.
Lépe programuje, hůře mluví
Takhle vypadá aktuální žebříček. Na prvním místě, s pěkným náskokem před ostatními, je aktuální model Claude 3.7 Sonnet. Ale podívejte se na druhé místo, kam se mezi dva Claudy na konci března dostal Gemini 2.5 Pro od Googlu.
Pořadí |
Model |
Skóre |
Skupina |
1 |
Claude 3.7 Sonnet (20250219) |
1354 |
Anthropic |
2 |
Gemini-2.5-Pro-Exp-03-25 |
1268 |
Google |
3 |
Claude 3.5 Sonnet (20241022) |
1245 |
Anthropic |
4 |
DeepSeek-R1 |
1204 |
DeepSeek |
5 |
early-grok-3 |
1145 |
xAI |
5 |
o3-mini-high (20250131) |
1144 |
OpenAI |
5 |
Claude 3.5 Haiku (20241022) |
1136 |
Anthropic |
8 |
Gemini-2.0-Pro-Exp-02-05 |
1099 |
Google |
8 |
o3-mini (20250131) |
1098 |
OpenAI |
10 |
o1 (20241217) |
1049 |
OpenAI |
Claude se v globálním žebříčku Chatbot Areny neumísťuje příliš vysoko, začíná se z něj stávat specializovaný model pro vývojáře. Jeho schopnosti v této oblasti mohu potvrdit. Zatímco standardní ChatGPT se do problému tu a tam zamotá a nenabídne správnou cestu ven, s Claudem bývám často úspěšný hned na první pokusy. Také ladění je uspokojivější.

Na obrázku je zobrazeno pořadí modelů s vyznačeným 95% intervalem spolehlivosti. Claude 3.7 má pěkný náskok před ostatními

Tento graf srovnává modely podle jejich úspěšnosti v duelech (vynechává nerozhodné souboje). Claude 3.7 Sonnet v 76 % případech zvítězil