Skip to main content

Vélemény

sajtó csomag

Töltse le a Clementine bemutatkozó anyagát.

SAJTÓKAPCSOLAT

E-mail: Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.

RÖVIDHÍR KOMMENTÁRRAL - MMLU, TTFT és egyéb állatfajták, avagy az MI megoldások mérése érthetően

RÖVIDHÍR KOMMENTÁRRAL - MMLU, TTFT és egyéb állatfajták, avagy az MI megoldások mérése érthetően

2024. július 25.

Az OpenAI bejelentette új modelljét, a ChatGPT-4o minit. Vajon mi lehet az oka annak, hogy Sam Altman cége is beállt a kisebb modelleket alkotó vállalatok, így például az Anthropic (Claude 3.5 Sonnet) vagy a Google (Gemini Nano) sorába?

LINK: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

KOMMENT:

Itt a GPT-4o mini! Jó? Jó! Vegyem meg? A vásárlás gomb megnyomása előtt, e rövid cikk elolvasása érdemben segítheti a tájékozódást.

A cikk a gyártó saját oldalán közölt saját cikke saját termékéről, tehát érdemes ellenőrizni állításait, megnézni, hogy a vélt vagy valós konkurensek mit szólnak a termékhez. Még ezen vizsgálat kezdeményezése előtt, a szövegben ígérgetésre lehetünk figyelmesek - amelyek már-már piaci standardnak számítanak. Nem egy termékleleplezést követően (sőt során!) derül ki, hogy valami nem pont úgy van, ahogy elhangzik, vagy a szolgáltatások még érkeznek, vagy az egész szolgáltatás csak később érhető el… itt például ígéret hangzik el a funkciók bővítésére. De ki fog arra figyelni fél év múlva? Majd vagy megnevezik a modell új verzióját, vagy teljesen új brand születik!

Visszatérve az MI megoldások méréséhez, milyen lehetőségek vannak?

Az MI megoldások mérésére kialakított MMLU tesztek (különböző tudományokban megméretve, mennyire sikeresen válaszol a modell) eredményeinek szemmel verése, vagy további elemzése nem segít az összehasonlításban, egy metrika a sok közül. A mérőszámok értése, pedig rendkívül száraz és fárasztó – olvasása könnyed szórakozás címen semmilyen korosztálynak nem ajánlott. Ellenben a cím ígérete alapján megkísérlünk adni egy érthető áttekintést címszavakban, melynek eredményeképp a modellek piacán nem veszünk tévedésből haiku helyett szonettet vagy lámát.

Input token ár

Az API kérésben küldött token ára. Jellemzően millió token / USD a mértékegység. Egy token 3-4 karaktert jelent.
Legkedvezőbb ajánlatok - GPT-40 mini / Llama 3 (8B) / Claude 3 Haiku/

Output token ár

A modell által generált eredmény ára.
Legkedvezőbb ajánlatok - GPT-40 mini / Llama 3 (8B) / Mistral NeMo/ 

Minőség

Az MMLU és különféle speciális vizsgákon mért eredmények metrikába emelése. Érdemes a célfeladat specifikus képességeket értékelni. (pl. van olyan, ami kódolni tud, de a tudástesztben alulmarad)

 Kontextus ablak

Az input és output kombinált maximuma. A RAG LLM modellekre épülő folyamatok számára fontos mutató. (RAG tipikus esetpélda, a saját dokumentumokon kérdés-válasz funkció kialakítása)
Legnagyobb kontextus ablakok - Gemini 1.5 Pro/ Gemini 1.5 Flash / Claude 3.5 Sonnet

Kimeneti sebesség

A másodpercenként beérkező tokenek száma attól az időponttól, hogy az API elküldte az első választöredéket. A modell generálási tevékenység alatti token előállítási sebességeként is értelmezhető. A nagyobb érték a jobb.
Legnagyobb kimeneti sebességek -  Mistral NeMo / Gemini 1.5 Flash / Llama 3 (8B)

Latency (TTFT)

Az első token beérkezési ideje az API kérést követően. Minél alacsonyabb, annál jobb!
Legjobb latency - Mixtral 8x22B / Llama 3 (8B) / Mistral NeMo

A fenti képességek az építő elemei összetett generatív MI kiértékeléseknek, melyeknek leginkább beszédes dimenziói, az alábbiak:

Minőség vs. kimeneti sebesség vs. ár

Minőség vs. kontextusablak vs. input token ár

Latency vs. kimeneti sebesség

De itt még nincs vége, az ördög a további részletekben lakozik, zsákjában lapul agyzsibbasztóan több mélyelemzési lehetőség (szintén önállóan és komplex módon)

  • napi rendszeres mérésekkel alátámasztva
  • 100, 1000, 10000 token mennyiségre
  • variancia elemzés
  • párhuzamos lekérdezések futtatásával

A kofaszlenghez tartozó top ajánlásokban, a GPT-4o a kedvező ár dobogós jelöltje - továbbá a modell minősége is nagyon jó. No-brainer jó üzlet! Nagyvállalati alkalmazása esetén azonban mindenképpen vizsgáljuk meg, hogy minden metrika szempontjából megfelel-e számunkra!

Csatlós Béla, IT Support, Clementine