Skip to main content

Vélemény

sajtó csomag

Töltse le a Clementine bemutatkozó anyagát.

SAJTÓKAPCSOLAT

E-mail: Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.

RÖVIDHÍR KOMMENTÁRRAL: Virtuális szeméthegyek

RÖVIDHÍR KOMMENTÁRRAL: Virtuális szeméthegyek

2024. február 23.

Egy új kutatás aggasztónak találja, hogy a netet elárasztják a rossz minőségű fordítások – és ez később a nagy nyelvi rendszerek szövegképzésére, teljesítményére lehetnek negatív hatással. Mit mond erre kollégánk? Az alábbi véleménycikkből kiderül.

Link:

https://www.vice.com/en/article/y3w4gw/a-shocking-amount-of-the-web-is-already-ai-translated-trash-scientists-determine

Létezik “First World problem” a harmadik világban? Úgy tűnik igen. Szemetes az internet, hogy lesz így jó generatív AI Afrikában? Nem akarom elbagatellizálni az ügyet, de miért is olyan nagy baj ez? Úgyis csak a munkánkat veszi el az AI, nem? Vegye el az övéket is?  

Számomra azért kicsit ironikus ez a problémafelvetés, mert ezekben az országokban vannak ennél sokkal nagyobb gondok is. Maradva a fenti témakörnél, az autentikus tartalom hiánya az interneten nem csupán a generatív AI fejlődését gátolja. Sokkal fontosabb aspektusa a dolognak az, hogy az emberek számára korlátozza a megfelelő információkhoz való hozzáférést. Generatív AI nélkül elég jól túléltünk eddig is. Az egyszeri internetező számára sokkal valósabb probléma az, ha nem talál megfelelő minőségű tartalmakat a saját nyelvén, vagy az, ha félrefordított szöveget vél igaznak. További fejtörést okozhat még, ha a gépek segítségével hatalmas mennyiségben előállított dezinformációs tartalmakat fogyaszt valaki, vagy ha szintén a gépi fordítás közreműködésével létrehozott hamis webshopokban csalás áldozatává válik és még sorolhatnánk. Nem újkeletű a jelenség. A Google által fordított weboldalak, cikkek, blogbejegyzések már hosszú évek óta velünk vannak. Ha például magyarul rákeresünk egy egészségügyi témára, rengeteg igénytelen tartalom fog elárasztani bennünket, nagyon sok esetben ugyanaz a gyanúsan fordítózás-szagú szöveg számtalan weboldalon szó szerint ismétlődve. A szakavatatlan olvasóban azt a hamis érzetet keltheti, hogy jó alaposan utánajárt egy témának, és lámcsak mindenütt ugyanazt írják, akkor bizonyára megalapozott, hogy a gyömbér gyógyítja a vastagbélrákot. Hasra ütöttem a példához, majd rákerestem és lássatok csodát, a gyömbér tényleg gyógyítja a vastagbélrákot az internet szerint. Ez a fajta igénytelen internetes “újságírás” már régóta jelen van, egyre nagyobb méreteket ölt és egyre nehezebb észrevenni. 

Viszont, ha a cikkben taglalt probléma megoldódik, és lehetővé válik a generatív AI megfelelő tanítása ezeken a nyelveken is, azzal azt is garantáljuk, hogy ha eddig gépi fordított szövegekkel volt elárasztva az internet, akkor onnantól árad majd a teljesen gép által generált szöveg is, így még nagyobb mértékben lesz robotgyártott minden az interneten. Ez viszont már komoly gond, nem csak ezekben az országokban, hanem az egész világon. A megoldás pedig még várat magára.  

Az AI ipar résztvevői által felvázolt megoldási irány jelenleg az, hogy világossá kell tenni az olvasók számára, hogy ki vagy mi áll az adott tartalom mögött, legyen szó akár szövegekről, képekről vagy videókról. Elérhetőek ugyan jelenleg is olyan AI detektorok, melyek elvileg megmondják, hogy egy szöveget ember írt-e, vagy gép, de azt hiszem, ezeknek a működése egyre kevésbé lesz megbízható, ahogy fejlődnek ezek a technológiák. A szerzőmegjelölés egyébként sosem volt erőssége az internetnek, és amíg olyan oldalak működnek, ahol mindenféle személyazonosság igazolása nélkül lehet regisztrálni, majd tartalmakat megosztani tömegével, addig hogyan is lehetne szankcionálni bármi ilyesmit? Valahogy viszont muszáj megoldást találni, mert teljes káosz lesz itt hamarosan (vagyis már az van). Deepfake pornó akárkiről, végtelen variációja a megtévesztésnek, a hamisított bizonyítékoknak és a lejáratásnak. Mindemellett várható a valódi bizonyítékok elértéktelenedése is, mert bárki mondhatja majd, hogy egy adott felvétel nem igazi, ha a hamisítás általánossá válik.  

A fenti problémákkal tisztában vannak a techóriások is (akik kiengedték a szellemet a palackból) és éppen az elmúlt pár napban írtak alá egy paktumot a témában. Ebben megígérik, hogy igyekeznek erőfeszítéseket tenni arra vonatkozóan, hogy minél gyorsabban és szélesebb körben elterjedjen az a technológia, ami megbízhatóan kiszűri és jelöli a géppel generált tartalmakat. Szkeptikus vagyok a sikert illetően. De ha meglesz a jelölés, ki lehetne terjeszteni a fordítózott szövegekre is, ezzel pedig megoldódna a cikkben taglalt probléma.

Akkor viszont valószínűleg nem lesz elég szöveg a tanításhoz, így ugyanúgy nem lesz jó a generatív AI adott nyelven, de legalább sok más komoly problémára lesz megoldás. 

Zsilinszki Anna, elemző, Clementine