Která AI je nejlepší pro programování. S náskokem vítězí Claude | Ilustrace: Živě.cz s pomocí AI Midjourney

Ilustrace: Živě.cz s pomocí AI Midjourney

Která AI je nejlepší pro programování. S náskokem vítězí Claude

Oživeno 25. ledna 2025 | Služba Chatbot Arena, ve které lidé anonymně srovnávají výstupy AI, má oddělený projekt zaměřený na využití chatbotů pro vývoj. Ve WebDev Arena (web.lmarena.ai) pomocí stejných principů porovnává jejich schopnosti samostatného kódování.

Na webu uvidíte jen pole, do kterého napíšete zadání, co má AI naprogramovat. Běží pod ním návrhy, na které stačí kliknout, kdyby vás zrovna nic nenapadalo. Služba potom vybere dva modely, problém jim předhodí, vy sledujete, jak pracují a v závěru ukážou spustitelný výsledek.

image.png

Až bude hotovo, posoudíte a označíte, který model si se zadáním poradil lépe. Nebo že jsou na tom oba podobně, případně že oba dva výsledky jsou špatné. Aby srovnání bylo neovlivněné, teprve potom zjistíte, které konkrétní modely v aréně soupeřily.

Lépe programuje, hůře mluví

Takhle vypadá aktuální žebříček. Na prvních místech, s celkem pěkným náskokem před ostatními, jsou dva modely Claude. Tato AI se jinak v globálním žebříčku Chatbot Areny neumísťuje příliš vysoko. Na konci ledna se ale mezi oba modely dostal ještě čínský DeepSeek R1.

Pořadí Model Skóre Skupina
1 Claude 3.5 Sonnet (20241022) 1253 Anthropic
2 DeepSeek-R1 1216 DeepSeek
3 Claude 3.5 Haiku (20241022) 1138 Anthropic
4 o1-mini (20240912) 1065 OpenAI
4 o1 (20241217) 1056 OpenAI
4 Gemini-2.0-Flash-Thinking-01-21 1051 Google
6 Gemini-2.0-Flash-Thinking-1219 1029 Google
6 Gemini-Exp-1206 1026 Google
9 Gemini-2.0-Flash-Exp 982 Google
10 DeepSeek-V3 967 DeepSeek

Vývojářské schopnosti Claude mohu potvrdit. Zatímco standardní ChatGPT se do problému tu a tam zamotá a nenabídne správnou cestu ven, s Claudem bývám často úspěšný hned na první pokusy. Také ladění je uspokojivější. Jak je vidět v žebříčku, u OpenAI hodně pomůže „přemýšlecí” model o1 – je ale pomalejší a má nižší kapacitu.

image.png
Na obrázku je „win rate“: podíl úspěšnosti jednotlivých modelů při soubojích jeden proti jednomu

Určitě si přečtěte

Články odjinud