Az entitások felismerésének fontossága
Az entitáskinyerés egyre fontosabb eszközzé válik a hatalmas mennyiségű szöveges tartalmak esetén az emberek, helyek, szervezetek, termékek és egyéb entitások említésének megtalálásában.
Milyen esetekben fontos az entitáskinyerés?
A bűnüldözés (a nyílt forrású hírszerzés), a szentimentelemzés, a hirdetések célzása, a tartalomajánlás, a szabadalmi keresések vagy éppen az ügyfélazonosítás és a csalás elleni küzdelem területén mind-mind kiemelkedően fontos az entitások felismerése és kinyerése.
Milyen entitások léteznek?
A leggyakrabban előforduló entitások természetesen a személynevek, lokációk (földrajzi nevek), a szervezetek, a dátumok, a nyelvek, a nemzetiségek, a mértékegységek, de emellett számos entitástípus létezik, mint például az emailek, az azonosítók, a betegségek, a vallások vagy az események. A világ egyik vezető entitáskinyerő megoldása, a Basistech által kifejlesztett, gépi tanulásos módszeren alapuló megoldása, a Rosette Entity Extractor (REX) 29 entitástípust és több mint 450 altípust képes azonosítani.
Fejlett névazonosítás az entitáskinyerés segítségével
Az entitástípusok közül rendkívül fontosak a személynevek, melyek beazonosíthatósága kiemelkedő jelentőségű.
A Basis Technology világelső névazonosító megoldása, a Rosette Name Indexer (RNI) 13 névpárosítási módszert foglal magába. A párosítási eljárásoknak köszönhetően a megoldás kiemelten hasznos a biztonsági szektorban, a rend- és határvédelem, az igazságszolgáltatás, reptéri- vagy egyéb szigorúan őrzött objektum biztosítás és személyi beléptetés területén tevékenykedő szervezet és vállalkozás számára.
Ismerje meg, hogyan lép a fejlett névazonosítást integráló vállalati kereső a biztonság szolgálatába.
Kinyerhető entitástípusok
- Személy (person)
- Hely (location)
- Szervezet (organization)
- Termék (product)
- Cím (title)
- Nemzetiség (nationality)
- Vallás (religion)
- Pénz (money)
- Bankkártya (credit card)
- URL
- Szám (number)
- Azonosító (ID number)
- Telefonszám (phone)
- Távolság (distance)
- Dátum (date)
- Idő (Time)
- Koordináta (lat/long)
- Anatómia (anatomy)
- Tevékenység (activity)
- Nyelv (language)
- Élelmiszer (food)
- Anyagnév (substance)
- Betegség (disease)
- Esemény (event)
- Faj (species)
- Mérték (measure)
- Vegyes entitások (MISC)
- Közlekedés (transport)
Támogatott nyelvek
- Magyar (2018. szeptembertől)
- Arab
- Egyszerűsített kínai
- Trandícionális kínai
- Holland
- Angol
- Francia
- Német
- Héber
- Indonéz
- Olasz
- Japán
- Koreai
- Maláj
- Pastu
- Perzsa
- Portugál
- Orosz
- Spanyol
- Svéd
- Urdu
- Vietnámi
A támogatott entitástípusok nyelvenként eltérőek lehetnek, de a felhasználók – az igényeknek megfelelően – tetszőleges számú újat vezethetnek be. Tudjon meg többet az entitáskinyerésről!
Hogyan tehető még pontosabbá az entitáskinyerés?
A Rosette Adaptation Studio (RAS) egy felhasználóbarát alkalmazás amely a nem szakmai felhasználók számára készült. Az intuitív felületen a REX által kinyert entitásokon felül tetszőleges új címke kategóriák vezethetőek be, ezt a folyamatot pedig maga az ügyfél is elvégezheti, hiszen az nem feltétlenül igényli adattudós vagy NLP szakember bevonását. Az alkalmazás használatával pedig felgyorsul és hatékonyabbá válik az annotációs folyamat.
Hogyan működik a folyamat?
1. szint: Csak adatok hozzáadása
Az adaptáció legegyszerűbb szintje, az úgynevezett „felügyelet nélküli tréningelés”, amely szinte teljesen felhasználóvezérelt lehet. A Rosette hozzáférést biztosít egy korszerű klaszterezési eszközlánchoz, amelyhez a felhasználó bármilyen mennyiségű saját adatot hozzáadhat – ilyenkor nincs szükség annotációra! Bármilyen már meglévő dokumentumból – amely a kinyerendő adatokra jellemző – a REX egy új, az adatai sajátosságaihoz igazított modellt épít, drámaian növelve az entitáskinyerés pontosságát.
Ez a felügyelet nélküli folyamat lehetővé teszi, hogy a Rosette megtalálja az entitásokat a felhasználó adatai által használt műfajban, stílusban és szókincsben, a szócsoportok gondolatai alapján, azaz „a hasonló szavak általában hasonló kontextusban jelennek meg”. Következésképpen a REX jobban megérti az ismeretlen szavakat körülvevő kontextust, és ennek eredményeképpen meglévő, jól meghatározott klaszterekbe sorolja őket.
2. szint: Egy kis annotáció sokat segíthet
A még nagyobb pontosság érdekében a felhasználó az adatok egy kis részét megjegyzésekkel láthatja el, és aktívan megtaníthatja a REX-nek a dokumentumaiban közös entitások egyedi kontextusait. Már néhány száz annotált dokumentum is drámai javulást eredményezhet a pontosságban. A Rosette Adaptation Studio (RAS) segítségével az annotált dokumentumok hozzáadása a meglévő REX-modell erősítéséhez sokkal gyorsabb és hatékonyabb, mint a hagyományos annotációs módszerek.
Régebben az annotátorok nem tudták megmondani, hogy mikor annotáltak elég dokumentumot ahhoz, hogy elérjék a kívánt pontossági szintet. A RAS – egy felhasználóbarát, webes alkalmazás, amely koordinálja több annotátor munkáját, így a hagyományos módszereknél exponenciálisan gyorsabban hozza létre a képzési adatokat.
Hogyan segít a Rosette Adaptation Studio?
A felhasználó valóban hatékonyan és gyorsan haladhat az annotálási folyamattal, hiszen a Rosette Adaptation Studio többek között az alábbiakkal segíti az annotálási folyamatot:
Ideiglenes modellek kihasználásával: a tréningelés során néhány dokumentum címkézésével egy átmeneti modellt hoz létre.
Hatékony annotálással: az aktív tanulási technológia előnyben részesíti azokat a címkézetlen dokumentumokat, amelyeket az ideiglenes modell a legkevésbé pontosnak ítél meg, így ezek kerülhetnek hamarabb annotálásra.
Számítógéppel támogatott címkézéssel: az ideiglenes modell előzetesen címkézi a dokumentumokat, így a felhasználók csak a hibákat javítják, a folyamat így gyorsabb, mintha minden dokumentum címkézése. kézzel, egyenként történne
Iteratív modellértékeléssel: A rendszer folyamatosan méri a modell pontosságát, lehetővé téve, hogy az annotálás leálljon, amint a kívánt pontosság megvalósul*.
* ehhez újabb fájlok hozzáadása szükséges, ez esetben nem tanításra, hanem kiértékelésre.
Alacsonyabb költségek, jobb modellek
A Rosette Annotation Studio (RAS) a szükséges adatok és az időráfordítás mennyiségének csökkentésével lerövidíti és igazán hatékonnyá teszi a modell képzésével járó munkát, különösen a nagyon specifikus természetes nyelvfeldolgozó modellek esetében.
Az egyedi entitások kinyerése mostantól nagyon leegyszerűsödik. Az ügyfelek rendkívül gyorsan betaníthatják és felépíthetik az új NLP modellt.
A megoldással 4-szer gyorsabb a munkavégzés, mint a hagyományos szövegannotációs módszerekkel.*
* a Basis Technology belső tesztjei alapján
Együtt jobb
A Rosette Adaptation Studio kiváló kiegészítője a REX-nek, amelyhez most a Rosette Entity Extractor felhasználók ingyenesen juthatnak hozzá. Sőt, tekintettel arra, hogy a legtöbb ügyfél szívesen fogad útmutatást az adatok kiválasztásában, az új modell felépítésében és az eredmények kiértékelésében, a Precognox Kft., – mint a Basis Technology partnere – külön szolgáltatás formájában szakmai segítséget nyújt a tréningelési folyamathoz.*
*amennyiben az ügyfél a Rosette megoldásait a Precognox Kft.-n keresztül rendelte meg.
A progresszív entitáskinyerés eredménye: hatékonyabb intelligens keresés
A szövegtestekből történő entitáskinyerés természetesen nem öncélú folyamat, hanem a sokkal hatékonyabb és felhasználóbarátabb keresési folyamat alapköve.
A különböző entitástípusok (nevek, dátumok, időpontok, földrajzi helyek, pénznemek, stb.) mind-mind szűrési opciók lehetnek a keresőmotorok esetében, általuk pedig pillanatok alatt leszűkíthetőek a keresési találatok.
A Precognox által fejlesztett TAS Vállalati kereső, illetve a TAS Tagger címkéző esetében a Basis Technology megoldásait integráljuk, így többek között a Rosette entitásfelismerő, illetve névazonosító modulját.