Skip to main content

Színes

sajtó csomag

Töltse le a Clementine bemutatkozó anyagát.

SAJTÓKAPCSOLAT

E-mail: Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.

Amikor a pontszám nem elég: az eval valódi szerepe a mesterséges intelligenciában

Amikor a pontszám nem elég: az eval valódi szerepe a mesterséges intelligenciában

2025. október 28.
Egy MI-modell 95%-ot teljesít a benchmarkon, aztán az éles környezetben összeomlik. A chatbot tökéletesen válaszol a tesztkérdésekre, majd valódi felhasználókkal találkozva sértő szöveget generál. Az értékelés – az „eval" – talán a legkevésbé értett, de a legkritikusabb része a modern MI-fejlesztésnek. A techóriások kiélezett piaci versenyben vannak az újabb csúcsmodellekkel, de egyre világosabb: nem elég tudni, hogy egy rendszer papíron hogyan teljesít. Meg kell érteni, mit jelent ez a gyakorlatban.

A metrikák csapdája: miért hazudnak a számok?

A hagyományos gépi tanulásban egyszerű metrikákkal – pontosság, F1-pontszám – mértük a teljesítményt. Diszkriminatív modelleknél ez még működött: egy képfelismerő vagy helyes, vagy téves választ ad. A generatív MI-nél ez a logika összeroppan. Egy nyelvi modell kimenetét nem lehet egyszerű helyes-hamis kategóriákba zsúfolni, mert végtelen számú jó válasz létezik.

A BLEU-pontszám, évekig a gépi fordítás standardja volt, nem érti a szemantikát. Bünteti az érvényes szinonimákat, közömbös a szórendre. A ROUGE metrika az összefoglalásoknál hasonló problémákkal küzd. És itt a nagyobb baj: a benchmarkok hackelhetők. A modellek jól szerepelnek a benchmark problémákon, de éles helyzetben leszerepelnek. (pl.: A Meta esete)

A Stanford AI Index 2025-ös jelentése megmutatta: az új benchmarkok viszonylag gyorsan elavulnak, ahogy a modellek teljesítménye drámain javul. Az állandó versenyben a kutatók arra optimalizálnak, ami könnyen mérhető, nem arra, ami tényleg számít.

Goodhart törvénye

Charles Goodhart közgazdász megfogalmazása szerint amikor egy mérőszám célponttá válik, megszűnik jó mérőszámnak lenni. A mesterséges intelligencia világában ez veszélyes méreteket ölt. Az MI rendkívüli hatékonyságot mutat a metrikák optimalizálásában, gyakorlatilag fegyvert kovácsolt Goodhart törvényéből.

Konkrét példa: az ajánlórendszereknél az elköteleződési metrikák maximalizálása – kattintások, nézési idő – oda vezetett, hogy az algoritmusok egyre szélsőségesebb tartalmakat népszerűsítettek, mivel ezek bizonyultak a leglebilincselőbbnek. Ezt az online radikalizáció egyik okaként tartják számon. Egy ártalmatlannak tűnő mérőszám optimalizálása közvetlen kárt okozott. Másik eset: az Egyesült Államokban tanárokat értékeltek és bocsátottak el olyan algoritmus alapján, amely a diákok teszteredményeire optimalizáltak. A modell megbukott a megbízhatósági teszteken, és a hátrányos helyzetű diákokat tanító pedagógusokat büntette. Ez jól mutatja, mi történik, ha rossz mérőszámot optimalizálunk egy magas kockázatú helyzetben.

Miért elengedhetetlen a szubjektivitás?

A generatív MI térnyerésével már nyilvánvaló: az emberi ítélet pótolhatatlan. Amikor egy modell újszerű tartalmat hoz létre – szöveget, képet, videót –, a minőséget nem lehet egyetlen helyes válasszal mérni. Kreativitás, koherencia, relevancia, hangnem. Ezek értékelése eredendően szubjektív.

A Chatbot Arena Elo-rangsorolási rendszere jó példa: emberek páronkénti összehasonlításokat végeznek modellek kimenetei között, így alakul ki preferenciaalapú rangsor. Az emberi értékelés viszont drága, időigényes, és befolyásolható az értékelők elfogultságai miatt.

Ezért terjedt el az „LLM-mint-bíró" megközelítés, ahol egy erős nyelvi modellt használnak más modellek kimenetének értékelésére. Gyorsabb, olcsóbb, ám saját torzításokat hoz be, és nem feltétlenül igazodik az emberi preferenciákhoz. A Google Vertex AI és hasonló platformok hibrid megközelítéseket kínálnak: automatizált metrikák és strukturált emberi értékelési munkafolyamatok kombinációját.

Alex Reibman adattudós jól fogalmaz: az eval végső soron minőségbiztosítás, amit soha nem szabad kiszervezni. A legjobb evalok mindig termékspecifikusak, a fejlesztőcsapat mély megértését tükrözik arról, mit jelent a jó teljesítmény az adott kontextusban.

A jövő: dinamikus, etikus és felelős értékelés

Az MI-értékelés jövője a statikus benchmarkok túllépésében van. Az MLOps (Machine Learning Operations) filozófiája szerint az értékelés nem egyszeri esemény, hanem folyamatos tevékenység, amely végigkíséri a modell teljes életciklusát. A termelési környezetben a modellek folyamatos monitorozása kritikus fontosságú a teljesítményromlás észleléséhez.

A jövőbeli értékelési keretrendszereknek tesztelniük kell a modellek képességét a valós problémák helyes megoldására. Kontextusérzékenynek kell lenniük, specifikus felhasználási esetekre fókuszálva. És ami a legfontosabb: etikailag megalapozottaknak kell lenniük, figyelembe véve a méltányosságot, a torzításokat és a hosszú távú társadalmi hatást.

Az MI-értékelés nem csak technikai kihívás, hanem társadalmi felelősség is. Ahogy egyre inkább MI-rendszerekre bízzuk a döntéshozatalt, kötelességünk biztosítani, hogy ezek megbízhatóan, igazságosan és átláthatóan működjenek. Az eval valódi szerepe nem a verseny táplálása, hanem a bizalom építése.