A cégek, nyomozati szerverek rengeteg adatot tárolnak szövegesen dokumentumok, szerződések, jelentések, feljegyzések formájában. Az információ kinyerése és -struktúrába rendezése két módon lehetséges: emberi erőforrás felhasználásával vagy géppel. Mindkettő idő- és erőforrás igényes folyamat, azonban a gépi információkinyerés lehetővé teszi egy automatizált rendszer kialakítását, mely sztenderd és objektív módon lesz képes a későbbiekben is az új dokumentumokon történő adatkinyerésre.
Az emberi erőforrással történő feldolgozás rendkívül időigényes: mivel a dokumentumok formátuma többnyire nem sztenderd, hanem gyakorlatilag teljesen ömlesztett szöveget tartalmaznak, feltételezzük, hogy egy dokumentum feldolgozása fél órát vesz igénybe. Napi folyamatos 10 órával számítva ez feldolgozónként 20 dokumentum, így 200 ezer dokumentum esetén a folyamat több, mint 10 ezer embernapot venne igénybe. Ezt figyelembe véve a feladatra több embert kell alkalmazni, ami lehetetlenné teszi az adatbázis konzisztens feltöltését, hiszen mindig lesznek olyan szempontok, adatok, amelyeket az egyes feldolgozók eltérően értelmeznek és töltenek fel. Új dokumentumok esetén pedig minden alkalommal emberi erőforrásra lesz szükség.
A gépi kinyerés első fázisa a tanítás, mely szintén időigényes feladat. A tanítás során a rendszernek meg kell tanítani milyen információkat, adatokat keressen, azonosítson, majd nyerjen ki. A tanítás elvégeztével az elkészült rendszer karbantartást igényel, amely már sokkal kevesebb erőforrást vesz igénybe.
Adatfeldolgozás
Megoldásunk az adatfeldolgozás során elvégzi az alábbi entitások kinyerését:
- személyek - nevek a következő nemzetiségekben: magyar, szláv, arab, orosz/ukrán, román, grúz, angol
- vállalkozások, szervezetek nevei, 10 európai ország cégtípusai alapján: Ausztria, Szlovákia, Ukrajna, Románia, Szerbia, Horvátország, Szlovénia, Németország, Oroszország, Lengyelország
- e-mail cím, IP cím, URL
Az adatfeldolgozási szakasz végén alakul ki az az adatstruktúra, amely már egy „Belső tudásbázisba” tölthető (ügyhöz kapcsolódó entitások és tulajdonságaik, kapcsolataik, kapcsolódó jelentés, stb.). Az adatfeldolgozási komponens az IBM SPSS Modeler Premium prediktív és szöveganalitikai eszköztárán alapul.
Belső tudásbázis (adattárolás)
A „Belső tudásbázis” Entitás tár része egy folyamatosan bővülő strukturált adatbázis, amely a dokumentumokból kinyert entitásokat, azok tulajdonságait és kapcsolatait is magában foglalja.
A megoldás részét képező IBM i2 iBase egy egyszerűen kezelhető intelligenciaadatbázis-alkalmazás, mely egy keresőfelületet is biztosít az elemzők számára a Belső tudásbázisban való kereséshez.
Vizualizáció
A Belső tudásbázishoz kapcsolódik egy vizuális megjelenítő, elemző és keresőfelület – i2 Analyst’s Notebook, amely lehetővé teszi az entitások közti kapcsolatok, összefüggések vizuális elemzését.