sajtó csomag
SAJTÓKAPCSOLAT
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.
RÖVIDHÍR KOMMENTÁRRAL - MMLU, TTFT és egyéb állatfajták, avagy az MI megoldások mérése érthetően
RÖVIDHÍR KOMMENTÁRRAL - MMLU, TTFT és egyéb állatfajták, avagy az MI megoldások mérése érthetően
Az OpenAI bejelentette új modelljét, a ChatGPT-4o minit. Vajon mi lehet az oka annak, hogy Sam Altman cége is beállt a kisebb modelleket alkotó vállalatok, így például az Anthropic (Claude 3.5 Sonnet) vagy a Google (Gemini Nano) sorába?
LINK: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
KOMMENT:
Itt a GPT-4o mini! Jó? Jó! Vegyem meg? A vásárlás gomb megnyomása előtt, e rövid cikk elolvasása érdemben segítheti a tájékozódást.
A cikk a gyártó saját oldalán közölt saját cikke saját termékéről, tehát érdemes ellenőrizni állításait, megnézni, hogy a vélt vagy valós konkurensek mit szólnak a termékhez. Még ezen vizsgálat kezdeményezése előtt, a szövegben ígérgetésre lehetünk figyelmesek - amelyek már-már piaci standardnak számítanak. Nem egy termékleleplezést követően (sőt során!) derül ki, hogy valami nem pont úgy van, ahogy elhangzik, vagy a szolgáltatások még érkeznek, vagy az egész szolgáltatás csak később érhető el… itt például ígéret hangzik el a funkciók bővítésére. De ki fog arra figyelni fél év múlva? Majd vagy megnevezik a modell új verzióját, vagy teljesen új brand születik!
Visszatérve az MI megoldások méréséhez, milyen lehetőségek vannak?
Az MI megoldások mérésére kialakított MMLU tesztek (különböző tudományokban megméretve, mennyire sikeresen válaszol a modell) eredményeinek szemmel verése, vagy további elemzése nem segít az összehasonlításban, egy metrika a sok közül. A mérőszámok értése, pedig rendkívül száraz és fárasztó – olvasása könnyed szórakozás címen semmilyen korosztálynak nem ajánlott. Ellenben a cím ígérete alapján megkísérlünk adni egy érthető áttekintést címszavakban, melynek eredményeképp a modellek piacán nem veszünk tévedésből haiku helyett szonettet vagy lámát.
Input token ár
Az API kérésben küldött token ára. Jellemzően millió token / USD a mértékegység. Egy token 3-4 karaktert jelent.
Legkedvezőbb ajánlatok - GPT-40 mini / Llama 3 (8B) / Claude 3 Haiku/
Output token ár
A modell által generált eredmény ára.
Legkedvezőbb ajánlatok - GPT-40 mini / Llama 3 (8B) / Mistral NeMo/
Minőség
Az MMLU és különféle speciális vizsgákon mért eredmények metrikába emelése. Érdemes a célfeladat specifikus képességeket értékelni. (pl. van olyan, ami kódolni tud, de a tudástesztben alulmarad)
Kontextus ablak
Az input és output kombinált maximuma. A RAG LLM modellekre épülő folyamatok számára fontos mutató. (RAG tipikus esetpélda, a saját dokumentumokon kérdés-válasz funkció kialakítása)
Legnagyobb kontextus ablakok - Gemini 1.5 Pro/ Gemini 1.5 Flash / Claude 3.5 Sonnet
Kimeneti sebesség
A másodpercenként beérkező tokenek száma attól az időponttól, hogy az API elküldte az első választöredéket. A modell generálási tevékenység alatti token előállítási sebességeként is értelmezhető. A nagyobb érték a jobb.
Legnagyobb kimeneti sebességek - Mistral NeMo / Gemini 1.5 Flash / Llama 3 (8B)
Latency (TTFT)
Az első token beérkezési ideje az API kérést követően. Minél alacsonyabb, annál jobb!
Legjobb latency - Mixtral 8x22B / Llama 3 (8B) / Mistral NeMo
A fenti képességek az építő elemei összetett generatív MI kiértékeléseknek, melyeknek leginkább beszédes dimenziói, az alábbiak:
Minőség vs. kimeneti sebesség vs. ár
Minőség vs. kontextusablak vs. input token ár
Latency vs. kimeneti sebesség
De itt még nincs vége, az ördög a további részletekben lakozik, zsákjában lapul agyzsibbasztóan több mélyelemzési lehetőség (szintén önállóan és komplex módon)
- napi rendszeres mérésekkel alátámasztva
- 100, 1000, 10000 token mennyiségre
- variancia elemzés
- párhuzamos lekérdezések futtatásával
A kofaszlenghez tartozó top ajánlásokban, a GPT-4o a kedvező ár dobogós jelöltje - továbbá a modell minősége is nagyon jó. No-brainer jó üzlet! Nagyvállalati alkalmazása esetén azonban mindenképpen vizsgáljuk meg, hogy minden metrika szempontjából megfelel-e számunkra!
Csatlós Béla, IT Support, Clementine
-
Ügynökök a te érdekedben: az MI Agent
-
Nagy nyelvi rangadó