Která AI je nejlepší pro programování? Nejlepší je Claude 3.7 Sonnet, ale Google Gemini se přibližuje | Ilustrace: Živě.cz s pomocí AI Midjourney

Ilustrace: Živě.cz s pomocí AI Midjourney

Která AI je nejlepší pro programování? Nejlepší je Claude 3.7 Sonnet, ale Google Gemini se přibližuje

Služba Chatbot Arena, ve které lidé anonymně srovnávají výstupy AI, má oddělený projekt zaměřený na využití chatbotů pro vývoj. Ve WebDev Arena (web.lmarena.ai) pomocí stejných principů porovnává jejich schopnosti samostatného kódování.

Oživeno 26. března 2025 | Ve výsledcích se objevil nový Google Gemini 2.5 Pro.

Na webu uvidíte jen pole, do kterého napíšete zadání, co má AI naprogramovat. Běží pod ním návrhy, na které stačí kliknout, kdyby vás zrovna nic nenapadalo. Služba potom vybere dva modely, problém jim předhodí, vy sledujete, jak pracují a v závěru ukážou spustitelný výsledek.

image.png

Až bude hotovo, posoudíte a označíte, který model si se zadáním poradil lépe. Nebo že jsou na tom oba podobně, případně že oba dva výsledky jsou špatné. Aby srovnání bylo neovlivněné, teprve potom zjistíte, které konkrétní modely v aréně soupeřily.

Lépe programuje, hůře mluví

Takhle vypadá aktuální žebříček. Na prvním místě, s pěkným náskokem před ostatními, je aktuální model Claude 3.7 Sonnet. Ale podívejte se na druhé místo, kam se mezi dva Claudy na konci března dostal Gemini 2.5 Pro od Googlu.

Pořadí Model Skóre Skupina
1 Claude 3.7 Sonnet (20250219) 1354 Anthropic
2 Gemini-2.5-Pro-Exp-03-25 1268 Google
3 Claude 3.5 Sonnet (20241022) 1245 Anthropic
4 DeepSeek-R1 1204 DeepSeek
5 early-grok-3 1145 xAI
5 o3-mini-high (20250131) 1144 OpenAI
5 Claude 3.5 Haiku (20241022) 1136 Anthropic
8 Gemini-2.0-Pro-Exp-02-05 1099 Google
8 o3-mini (20250131) 1098 OpenAI
10 o1 (20241217) 1049 OpenAI

Claude se v globálním žebříčku Chatbot Areny neumísťuje příliš vysoko, začíná se z něj stávat specializovaný model pro vývojáře. Jeho schopnosti v této oblasti mohu potvrdit. Zatímco standardní ChatGPT se do problému tu a tam zamotá a nenabídne správnou cestu ven, s Claudem bývám často úspěšný hned na první pokusy. Také ladění je uspokojivější.

image.png
 Na obrázku je zobrazeno pořadí modelů s vyznačeným 95% intervalem spolehlivosti. Claude 3.7 má pěkný náskok před ostatními
image.png
Tento graf srovnává modely podle jejich úspěšnosti v duelech (vynechává nerozhodné souboje). Claude 3.7 Sonnet v 76 % případech zvítězil

Určitě si přečtěte

Články odjinud