Oživeno 3. března 2025 | Pořadí nejlepších AI se v žebříčku ChatbotArena mění rychleji, než stíháme vydávat články. Už jsme měli rozepsanou večerní novinku, že se na prvních místech usídlil nový model GPT-4.5 od OpenAI. Už za pár hodin to ale bylo jinak, o jeden bod ho předstihl Grok 3 Elona Muska. V ChatbotAreně byl doposud jako předprodukční Early Grok-3, nyní ho nahradila novější verze.
V tabulkách níže v článku najdete aktuální žebříčky pro různé zkoumané kategorie. Na následujícím obrázku je shrnutí: pořadí modelů v jednotlivých kategoriích.

Deset nejlepších modelů a jejich umístění v jednotlivých hodnocených kategoriích. Na webu Chatbot Arena jsou potom jsou ještě kategorie hlavních jazyků
Není nám úplně jasné, jakým způsobem ChatbotArena počítá celkové skóre. Když totiž sečteme body ve všech kategoriích, vychází u Groka 25 387 a u ChatuGPT 25 721. Také na obrázku s pořadím má „první“ Grok několik druhých míst, zatímco u ChatuGPT všude svítí první místo.
Rozdíl mezi oběma modely je v každém případě minimální, v souhrnném Arena Score se liší o jediný bod. Je to dobře vidět v následujícím grafu, kde jsou celkové výsledky doplněné ještě znázorněním intervalu 95% statistické spolehlivosti. U nových modelů, které hodnocení teprve sbírají, je tento interval docela široký.

Všimněte si, jak je v tomto grafu daleko nový Claude 3.7 Sonnet. AI Chatbot od Anthropic se od konkurence dost vzdaluje a stává se specialistou na vývoj. V této oblasti je nejlepší.
Lidé prostřednictvím projektu LMSYS Chatbot Arena (lmarena.ai) hodnotí možnosti jednotlivých AI. Hlasování je slepé, název modelu se dozvědí až po označení, který ze dvou vybraných zpracoval zadání lépe. Chatboti se podle hodnocení řadí do žebříčků a v tomto článku najdete pořadí v hlavních kategoriích.
Přečtěte si, jak Chatbot Arena funguje, jakým způsobem žebříčky vznikají a jak v ní sami můžete modely zkoušet a hodnotit:
Hlavní žebříček AI bez rozlišení kategorií (Overall na Chatbot Arena)
Pořadí |
Model |
Skóre |
Skupina |
1 |
Grok-3-Preview-02-24 |
1412 |
xAI |
1 |
GPT-4.5-Preview |
1411 |
OpenAI |
3 |
Gemini-2.0-Flash-Thinking-Exp-01-21 |
1384 |
Google |
3 |
Gemini-2.0-Pro-Exp-02-05 |
1380 |
Google |
3 |
ChatGPT-4o-latest (2025-01-29) |
1377 |
OpenAI |
6 |
DeepSeek-R1 |
1363 |
DeepSeek |
6 |
Gemini-2.0-Flash-001 |
1357 |
Google |
7 |
o1-2024-12-17 |
1352 |
OpenAI |
9 |
Qwen2.5-Max |
1336 |
Alibaba |
9 |
o1-preview |
1335 |
OpenAI |
Žebříček bez vlivu stylu (Overall w/ Style Control)
Hlavní žebříček Chatbot Arena hodnotí odpovědi AI modelů tak, jak je uživatelé přímo vnímají; tedy včetně délky odpovědí a formátování. Hodnocení bez vlivu stylu používá statistické metody k odfiltrování těchto stylistických prvků a snaží se měřit pouze skutečnou kvalitu obsahu. Cílem je poskytnout objektivnější pohled na schopnosti modelů bez zkreslení způsobeného formou prezentace jejich odpovědí.
Pořadí |
Model |
Skóre |
Skupina |
1 |
GPT-4.5-Preview |
1370 |
OpenAI |
2 |
ChatGPT-4o-latest (2025-01-29) |
1341 |
OpenAI |
2 |
Grok-3-Preview-02-24 |
1334 |
xAI |
3 |
o1-2024-12-17 |
1323 |
OpenAI |
3 |
Gemini-2.0-Pro-Exp-02-05 |
1321 |
Google |
3 |
DeepSeek-R1 |
1320 |
DeepSeek |
5 |
Gemini-2.0-Flash-Thinking-Exp-01-21 |
1311 |
Google |
5 |
Claude 3.7 Sonnet |
1308 |
Anthropic |
7 |
o1-preview |
1303 |
OpenAI |
10 |
o3-mini-high |
1290 |
OpenAI |
Matematika (Math)
Pořadí |
Model |
Skóre |
Skupina |
1 |
GPT-4.5-Preview |
1367 |
OpenAI |
1 |
o3-mini-high |
1361 |
OpenAI |
1 |
o1-2024-12-17 |
1359 |
OpenAI |
1 |
DeepSeek-R1 |
1359 |
DeepSeek |
1 |
o3-mini |
1353 |
OpenAI |
1 |
Gemini-2.0-Flash-Thinking-Exp-01-21 |
1348 |
Google |
1 |
o1-preview |
1340 |
OpenAI |
1 |
Grok-3-Preview-02-24 |
1337 |
xAI |
1 |
Gemini-2.0-Pro-Exp-02-05 |
1335 |
Google |
1 |
Gemini-2.0-Flash-001 |
1332 |
Google |
Programování a kódování (Coding)
Pro kódování provozuje Chatbot Arena samostatnou službu, ve které porovnává schopnosti AI chatbotů generovat rovnou spustitelné skripty. Podrobně jsme o ní psali v samostatném článku.
Pořadí |
Model |
Skóre |
Skupina |
1 |
GPT-4.5-Preview |
1426 |
OpenAI |
1 |
Grok-3-Preview-02-24 |
1410 |
xAI |
3 |
Gemini-2.0-Pro-Exp-02-05 |
1378 |
Google |
3 |
DeepSeek-R1 |
1370 |
DeepSeek |
3 |
o3-mini-high |
1368 |
OpenAI |
3 |
ChatGPT-4o-latest (2025-01-29) |
1366 |
OpenAI |
3 |
Gemini-2.0-Flash-Thinking-Exp-01-21 |
1366 |
Google |
3 |
Claude 3.7 Sonnet |
1364 |
Anthropic |
3 |
o1-2024-12-17 |
1358 |
OpenAI |
3 |
Gemini-2.0-Flash-001 |
1356 |
Google |
Velmi obtížná zadání (Hard Prompts)
Pořadí |
Model |
Skóre |
Skupina |
1 |
GPT-4.5-Preview |
1411 |
OpenAI |
1 |
Grok-3-Preview-02-24 |
1405 |
xAI |
1 |
Gemini-2.0-Pro-Exp-02-05 |
1385 |
Google |
2 |
Gemini-2.0-Flash-Thinking-Exp-01-21 |
1382 |
Google |
3 |
o1-2024-12-17 |
1369 |
OpenAI |
3 |
o3-mini-high |
1365 |
OpenAI |
3 |
DeepSeek-R1 |
1362 |
DeepSeek |
4 |
Gemini-2.0-Flash-001 |
1360 |
Google |
5 |
o3-mini |
1355 |
OpenAI |
5 |
o1-preview |
1352 |
OpenAI |
Velmi dlouhá zadání (Longer Query)
Pořadí |
Model |
Skóre |
Skupina |
1 |
GPT-4.5-Preview |
1444 |
OpenAI |
1 |
Grok-3-Preview-02-24 |
1407 |
xAI |
1 |
ChatGPT-4o-latest (2025-01-29) |
1404 |
OpenAI |
2 |
Gemini-2.0-Pro-Exp-02-05 |
1396 |
Google |
2 |
Gemini-2.0-Flash-Thinking-Exp-01-21 |
1395 |
Google |
2 |
o1-2024-12-17 |
1386 |
OpenAI |
2 |
Claude 3.7 Sonnet |
1373 |
Anthropic |
4 |
o3-mini-high |
1358 |
OpenAI |
5 |
Hunyuan-Large-2025-02-10 |
1350 |
Tencent |
6 |
DeepSeek-R1 |
1360 |
DeepSeek |
Kreativní psaní (Creative Writing)
Pořadí |
Model |
Skóre |
Skupina |
1 |
ChatGPT-4o-latest (2025-01-29) |
1418 |
OpenAI |
1 |
Grok-3-Preview-02-24 |
1417 |
xAI |
1 |
GPT-4.5-Preview |
1405 |
OpenAI |
2 |
Gemini-2.0-Flash-Thinking-Exp-01-21 |
1393 |
Google |
2 |
Gemini-2.0-Pro-Exp-02-05 |
1388 |
Google |
3 |
DeepSeek-R1 |
1369 |
DeepSeek |
6 |
Gemini-2.0-Flash-001 |
1352 |
Google |
6 |
o1-2024-12-17 |
1347 |
OpenAI |
6 |
Claude 3.7 Sonnet |
1337 |
Anthropic |
7 |
Gemini-1.5-Pro-002 |
1331 |
Google |
Při přípravě tohoto pravidelně aktualizovaného článku nám také velmi pomáhá AI. Přes schránku zkopírujeme část tabulky s příslušným žebříčkem na webu Chatbot Arena a ChatGPT nám z ní vytvoří HTML, které potřebujeme. Vzpomeňte si na AI, když potřebujete nějak transformovat texty nebo obecně data, tyto činnosti dokáže pěkně zrychlit.

Zadání pro ChatGPT a výsledek po zkopírování tabulky z webu Chatbot Arena