Külső OCR motorok használata a CRAFT rendszerben

2017.01.17 nyomtatható verzió

Lezárult a CRAFT rendszerben külső OCR motorok felhasználási lehetőségeinek vizsgálata a Cardinal Kft.-nél. Ennek eredményeként olyan új lehetőségek előtt nyílt meg az út a CRAFT rendszerben, mint a szkennelt dokumentumok tartalma alapján történő keresés, szövegrész kimásolása a szkennelt dokumentumból, kereshető PDF-ek előállítása a szkennelt dokumentumokból, vagy információ automatikus kiolvasása kevésbé jól strukturált dokumentumokból.

Bevezetés

Az ez év közepén kezdett vizsgálataink a harmadik fél által kínált OCR motorokkal kapcsolatban lezárultak. Két szállító termékeit vizsgáltuk, a Nuance OmniPage Capture-t és az ABBY Recognition Server és FineReader termékeit. Vizsgálataink célja az OCR motorok pontosságának és hatékonyságának vizsgálata mellett elsősorban az volt, hogy megteremtsük a CRAFT rendszerben a külső OCR motorok felhasználásának lehetőségeit és megvizsgáljuk, hogy ezekre támaszkodva milyen új szolgáltatásokat tudunk nyújtani.

FullText keresés

A rendszerben lehetővé válik a szkennelt dokumentumok egész oldalas OCR feldolgozása és erre alapozva a dokumentum tartalma alapján történő szabad szöveges keresés. Tapasztalatunk alapján az OCR motorok kevés hibával képesek a szöveg felismerésére, így átlagos használatra akár ellenőrzés, javítás nélkül is felhasználhatóak. Olyan kritikus esetekben, amikor a szöveg hibamentes felismerése szükséges, az OCR motor eredményét a CRAFT rendszerbe épített ellenőrző, javító felületen keresztül javíthatjuk. Ez a felület a lehetséges hibák megjelölésével, egyszerű pozicionálással segíti a felismerési hibák javítását.

Kereshető PDF

Az OCR motorokra támaszkodva lehetőség nyílik a szkennelt dokumentumok úgynevezett kereshető PDF formában történő tárolására, exportálására. A formátum előnye, hogy a felhasználó a szkennelt képet látja annak minden részletével, de a kép alatt egy másik rétegben ott van a felismert szöveg is, ami lehetővé teszi egy szövegrészlet kijelölését és másolását, vagy a fájlrendszerbe exportált képek tartalom szerinti keresését.

Dokumentumok tartalmának feldolgozása

A CRAFT rendszer saját OCR motorja jól strukturált dokumentumokról fix helyen lévő információk leolvasását teszi lehetővé. Ilyen feladat a formanyomtatványok feldolgozása, melyet jelenleg is számos helyen végeznek a CRAFT rendszer segítségével. Az OCR motorok eredményére támaszkodva lehetőség nyílik kevésbé jól strukturált dokumentumok tartalmi feldolgozására, ahol egyes információk helye a tartalomtól függően eltérő lehet, vagy egyes információk csak a szövegkörnyezet alapján beazonosíthatóak. Ilyenek például a számlák, melyek feldolgozására irányuló fejlesztések jelenleg folyamatban vannak a CRAFT rendszerben.

 
 
Nincs kapcsolódó bejegyzés.