sajtó csomag
SAJTÓKAPCSOLAT
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.
Amikor a pontszám nem elég: az eval valódi szerepe a mesterséges intelligenciában
Amikor a pontszám nem elég: az eval valódi szerepe a mesterséges intelligenciában
A metrikák csapdája: miért hazudnak a számok?
A hagyományos gépi tanulásban egyszerű metrikákkal – pontosság, F1-pontszám – mértük a teljesítményt. Diszkriminatív modelleknél ez még működött: egy képfelismerő vagy helyes, vagy téves választ ad. A generatív MI-nél ez a logika összeroppan. Egy nyelvi modell kimenetét nem lehet egyszerű helyes-hamis kategóriákba zsúfolni, mert végtelen számú jó válasz létezik.
A BLEU-pontszám, évekig a gépi fordítás standardja volt, nem érti a szemantikát. Bünteti az érvényes szinonimákat, közömbös a szórendre. A ROUGE metrika az összefoglalásoknál hasonló problémákkal küzd. És itt a nagyobb baj: a benchmarkok hackelhetők. A modellek jól szerepelnek a benchmark problémákon, de éles helyzetben leszerepelnek. (pl.: A Meta esete)
A Stanford AI Index 2025-ös jelentése megmutatta: az új benchmarkok viszonylag gyorsan elavulnak, ahogy a modellek teljesítménye drámain javul. Az állandó versenyben a kutatók arra optimalizálnak, ami könnyen mérhető, nem arra, ami tényleg számít.
Goodhart törvénye
Charles Goodhart közgazdász megfogalmazása szerint amikor egy mérőszám célponttá válik, megszűnik jó mérőszámnak lenni. A mesterséges intelligencia világában ez veszélyes méreteket ölt. Az MI rendkívüli hatékonyságot mutat a metrikák optimalizálásában, gyakorlatilag fegyvert kovácsolt Goodhart törvényéből.
Konkrét példa: az ajánlórendszereknél az elköteleződési metrikák maximalizálása – kattintások, nézési idő – oda vezetett, hogy az algoritmusok egyre szélsőségesebb tartalmakat népszerűsítettek, mivel ezek bizonyultak a leglebilincselőbbnek. Ezt az online radikalizáció egyik okaként tartják számon. Egy ártalmatlannak tűnő mérőszám optimalizálása közvetlen kárt okozott. Másik eset: az Egyesült Államokban tanárokat értékeltek és bocsátottak el olyan algoritmus alapján, amely a diákok teszteredményeire optimalizáltak. A modell megbukott a megbízhatósági teszteken, és a hátrányos helyzetű diákokat tanító pedagógusokat büntette. Ez jól mutatja, mi történik, ha rossz mérőszámot optimalizálunk egy magas kockázatú helyzetben.
Miért elengedhetetlen a szubjektivitás?
A generatív MI térnyerésével már nyilvánvaló: az emberi ítélet pótolhatatlan. Amikor egy modell újszerű tartalmat hoz létre – szöveget, képet, videót –, a minőséget nem lehet egyetlen helyes válasszal mérni. Kreativitás, koherencia, relevancia, hangnem. Ezek értékelése eredendően szubjektív.
A Chatbot Arena Elo-rangsorolási rendszere jó példa: emberek páronkénti összehasonlításokat végeznek modellek kimenetei között, így alakul ki preferenciaalapú rangsor. Az emberi értékelés viszont drága, időigényes, és befolyásolható az értékelők elfogultságai miatt.
Ezért terjedt el az „LLM-mint-bíró" megközelítés, ahol egy erős nyelvi modellt használnak más modellek kimenetének értékelésére. Gyorsabb, olcsóbb, ám saját torzításokat hoz be, és nem feltétlenül igazodik az emberi preferenciákhoz. A Google Vertex AI és hasonló platformok hibrid megközelítéseket kínálnak: automatizált metrikák és strukturált emberi értékelési munkafolyamatok kombinációját.
Alex Reibman adattudós jól fogalmaz: az eval végső soron minőségbiztosítás, amit soha nem szabad kiszervezni. A legjobb evalok mindig termékspecifikusak, a fejlesztőcsapat mély megértését tükrözik arról, mit jelent a jó teljesítmény az adott kontextusban.
A jövő: dinamikus, etikus és felelős értékelés
Az MI-értékelés jövője a statikus benchmarkok túllépésében van. Az MLOps (Machine Learning Operations) filozófiája szerint az értékelés nem egyszeri esemény, hanem folyamatos tevékenység, amely végigkíséri a modell teljes életciklusát. A termelési környezetben a modellek folyamatos monitorozása kritikus fontosságú a teljesítményromlás észleléséhez.
A jövőbeli értékelési keretrendszereknek tesztelniük kell a modellek képességét a valós problémák helyes megoldására. Kontextusérzékenynek kell lenniük, specifikus felhasználási esetekre fókuszálva. És ami a legfontosabb: etikailag megalapozottaknak kell lenniük, figyelembe véve a méltányosságot, a torzításokat és a hosszú távú társadalmi hatást.
Az MI-értékelés nem csak technikai kihívás, hanem társadalmi felelősség is. Ahogy egyre inkább MI-rendszerekre bízzuk a döntéshozatalt, kötelességünk biztosítani, hogy ezek megbízhatóan, igazságosan és átláthatóan működjenek. Az eval valódi szerepe nem a verseny táplálása, hanem a bizalom építése.
-
A zsebrevágott MI
-
Svájc belép a ringbe: az Apertus és a nyílt MI új korszaka