Která AI je nejlepší? Na špičce je nový GPT-4.5 od OpenAI. Tak ne, už se tam zase vrátil Grok

Oživeno 3. března 2025 | Pořadí nejlepších AI se v žebříčku ChatbotArena mění rychleji, než stíháme vydávat články. Už jsme měli rozepsanou večerní novinku, že se na prvních místech usídlil nový model GPT-4.5 od OpenAI. Už za pár hodin to ale bylo jinak, o jeden bod ho předstihl Grok 3 Elona Muska. V ChatbotAreně byl doposud jako předprodukční Early Grok-3, nyní ho nahradila novější verze.

V tabulkách níže v článku najdete aktuální žebříčky pro různé zkoumané kategorie. Na následujícím obrázku je shrnutí: pořadí modelů v jednotlivých kategoriích.

image.png
Deset nejlepších modelů a jejich umístění v jednotlivých hodnocených kategoriích. Na webu Chatbot Arena jsou potom jsou ještě kategorie hlavních jazyků

Není nám úplně jasné, jakým způsobem ChatbotArena počítá celkové skóre. Když totiž sečteme body ve všech kategoriích, vychází u Groka 25 387 a u ChatuGPT 25 721. Také na obrázku s pořadím má „první“ Grok několik druhých míst, zatímco u ChatuGPT všude svítí první místo.

Rozdíl mezi oběma modely je v každém případě minimální, v souhrnném Arena Score se liší o jediný bod. Je to dobře vidět v následujícím grafu, kde jsou celkové výsledky doplněné ještě znázorněním intervalu 95% statistické spolehlivosti. U nových modelů, které hodnocení teprve sbírají, je tento interval docela široký. 

image.png

Všimněte si, jak je v tomto grafu daleko nový Claude 3.7 Sonnet. AI Chatbot od Anthropic se od konkurence dost vzdaluje a stává se specialistou na vývoj. V této oblasti je nejlepší.


Lidé prostřednictvím projektu LMSYS Chatbot Arena (lmarena.ai) hodnotí možnosti jednotlivých AI. Hlasování je slepé, název modelu se dozvědí až po označení, který ze dvou vybraných zpracoval zadání lépe. Chatboti se podle hodnocení řadí do žebříčků a v tomto článku najdete pořadí v hlavních kategoriích.

Přečtěte si, jak Chatbot Arena funguje, jakým způsobem žebříčky vznikají a jak v ní sami můžete modely zkoušet a hodnotit:

Hlavní žebříček AI bez rozlišení kategorií (Overall na Chatbot Arena)

Pořadí Model Skóre Skupina
1 Grok-3-Preview-02-24 1412 xAI
1 GPT-4.5-Preview 1411 OpenAI
3 Gemini-2.0-Flash-Thinking-Exp-01-21 1384 Google
3 Gemini-2.0-Pro-Exp-02-05 1380 Google
3 ChatGPT-4o-latest (2025-01-29) 1377 OpenAI
6 DeepSeek-R1 1363 DeepSeek
6 Gemini-2.0-Flash-001 1357 Google
7 o1-2024-12-17 1352 OpenAI
9 Qwen2.5-Max 1336 Alibaba
9 o1-preview 1335 OpenAI

Žebříček bez vlivu stylu (Overall w/ Style Control)

Hlavní žebříček Chatbot Arena hodnotí odpovědi AI modelů tak, jak je uživatelé přímo vnímají; tedy včetně délky odpovědí a formátování. Hodnocení bez vlivu stylu používá statistické metody k odfiltrování těchto stylistických prvků a snaží se měřit pouze skutečnou kvalitu obsahu. Cílem je poskytnout objektivnější pohled na schopnosti modelů bez zkreslení způsobeného formou prezentace jejich odpovědí.

Pořadí Model Skóre Skupina
1 GPT-4.5-Preview 1370 OpenAI
2 ChatGPT-4o-latest (2025-01-29) 1341 OpenAI
2 Grok-3-Preview-02-24 1334 xAI
3 o1-2024-12-17 1323 OpenAI
3 Gemini-2.0-Pro-Exp-02-05 1321 Google
3 DeepSeek-R1 1320 DeepSeek
5 Gemini-2.0-Flash-Thinking-Exp-01-21 1311 Google
5 Claude 3.7 Sonnet 1308 Anthropic
7 o1-preview 1303 OpenAI
10 o3-mini-high 1290 OpenAI

Matematika (Math)

Pořadí Model Skóre Skupina
1 GPT-4.5-Preview 1367 OpenAI
1 o3-mini-high 1361 OpenAI
1 o1-2024-12-17 1359 OpenAI
1 DeepSeek-R1 1359 DeepSeek
1 o3-mini 1353 OpenAI
1 Gemini-2.0-Flash-Thinking-Exp-01-21 1348 Google
1 o1-preview 1340 OpenAI
1 Grok-3-Preview-02-24 1337 xAI
1 Gemini-2.0-Pro-Exp-02-05 1335 Google
1 Gemini-2.0-Flash-001 1332 Google

Programování a kódování (Coding)

Pro kódování provozuje Chatbot Arena samostatnou službu, ve které porovnává schopnosti AI chatbotů generovat rovnou spustitelné skripty. Podrobně jsme o ní psali v samostatném článku.

Pořadí Model Skóre Skupina
1 GPT-4.5-Preview 1426 OpenAI
1 Grok-3-Preview-02-24 1410 xAI
3 Gemini-2.0-Pro-Exp-02-05 1378 Google
3 DeepSeek-R1 1370 DeepSeek
3 o3-mini-high 1368 OpenAI
3 ChatGPT-4o-latest (2025-01-29) 1366 OpenAI
3 Gemini-2.0-Flash-Thinking-Exp-01-21 1366 Google
3 Claude 3.7 Sonnet 1364 Anthropic
3 o1-2024-12-17 1358 OpenAI
3 Gemini-2.0-Flash-001 1356 Google

Velmi obtížná zadání (Hard Prompts)

Pořadí Model Skóre Skupina
1 GPT-4.5-Preview 1411 OpenAI
1 Grok-3-Preview-02-24 1405 xAI
1 Gemini-2.0-Pro-Exp-02-05 1385 Google
2 Gemini-2.0-Flash-Thinking-Exp-01-21 1382 Google
3 o1-2024-12-17 1369 OpenAI
3 o3-mini-high 1365 OpenAI
3 DeepSeek-R1 1362 DeepSeek
4 Gemini-2.0-Flash-001 1360 Google
5 o3-mini 1355 OpenAI
5 o1-preview 1352 OpenAI

Velmi dlouhá zadání (Longer Query)

Pořadí Model Skóre Skupina
1 GPT-4.5-Preview 1444 OpenAI
1 Grok-3-Preview-02-24 1407 xAI
1 ChatGPT-4o-latest (2025-01-29) 1404 OpenAI
2 Gemini-2.0-Pro-Exp-02-05 1396 Google
2 Gemini-2.0-Flash-Thinking-Exp-01-21 1395 Google
2 o1-2024-12-17 1386 OpenAI
2 Claude 3.7 Sonnet 1373 Anthropic
4 o3-mini-high 1358 OpenAI
5 Hunyuan-Large-2025-02-10 1350 Tencent
6 DeepSeek-R1 1360 DeepSeek

Kreativní psaní (Creative Writing)

Pořadí Model Skóre Skupina
1 ChatGPT-4o-latest (2025-01-29) 1418 OpenAI
1 Grok-3-Preview-02-24 1417 xAI
1 GPT-4.5-Preview 1405 OpenAI
2 Gemini-2.0-Flash-Thinking-Exp-01-21 1393 Google
2 Gemini-2.0-Pro-Exp-02-05 1388 Google
3 DeepSeek-R1 1369 DeepSeek
6 Gemini-2.0-Flash-001 1352 Google
6 o1-2024-12-17 1347 OpenAI
6 Claude 3.7 Sonnet 1337 Anthropic
7 Gemini-1.5-Pro-002 1331 Google

Při přípravě tohoto pravidelně aktualizovaného článku nám také velmi pomáhá AI. Přes schránku zkopírujeme část tabulky s příslušným žebříčkem na webu Chatbot Arena a ChatGPT nám z ní vytvoří HTML, které potřebujeme. Vzpomeňte si na AI, když potřebujete nějak transformovat texty nebo obecně data, tyto činnosti dokáže pěkně zrychlit. 

image.png 479b63f2-3e75-40a1-88df-084e7f71d526
Zadání pro ChatGPT a výsledek po zkopírování tabulky z webu Chatbot Arena

Určitě si přečtěte

Články odjinud