Pontosabb entitáskinyerés a Rosette Adaptation Studioval

Az entitások felismerésének fontossága

Az entitáskinyerés egyre fontosabb eszközzé válik a hatalmas mennyiségű szöveges tartalmak esetén az emberek, helyek, szervezetek, termékek és egyéb entitások említésének megtalálásában.

Milyen esetekben fontos az entitáskinyerés?

A bűnüldözés (a nyílt forrású hírszerzés), a szentimentelemzés, a hirdetések célzása, a tartalomajánlás, a szabadalmi keresések vagy éppen az ügyfélazonosítás és a csalás elleni küzdelem területén mind-mind kiemelkedően fontos az entitások felismerése és kinyerése.

Milyen entitások léteznek?

A leggyakrabban előforduló entitások természetesen a személynevek, lokációk (földrajzi nevek), a szervezetek, a dátumok, a nyelvek, a nemzetiségek, a mértékegységek, de emellett számos entitástípus létezik, mint például az emailek, az azonosítók, a betegségek, a vallások vagy az események. A világ egyik vezető entitáskinyerő megoldása, a Basistech által kifejlesztett, gépi tanulásos módszeren alapuló megoldása, a Rosette Entity Extractor (REX) 29 entitástípust és több mint 450 altípust képes azonosítani.

Fejlett névazonosítás az entitáskinyerés segítségével

Az entitástípusok közül rendkívül fontosak a személynevek, melyek beazonosíthatósága kiemelkedő jelentőségű.
A Basis Technology világelső névazonosító megoldása, a Rosette Name Indexer (RNI) 13 névpárosítási módszert foglal magába. A párosítási eljárásoknak köszönhetően a megoldás kiemelten hasznos a biztonsági szektorban, a rend- és határvédelem, az igazságszolgáltatás, reptéri- vagy egyéb szigorúan őrzött objektum biztosítás és személyi beléptetés területén tevékenykedő szervezet és vállalkozás számára.
Ismerje meg, hogyan lép a fejlett névazonosítást integráló vállalati kereső a biztonság szolgálatába.

entitások a szövegtestben

Kinyerhető entitástípusok

  • Személy (person)
  • Hely (location)
  • Szervezet (organization)
  • Termék (product)
  • Cím (title)
  • Nemzetiség (nationality)
  • Vallás (religion)
  • Pénz (money)
  • Bankkártya (credit card)
  • URL
  • Szám (number)
  • Azonosító (ID number)
  • Telefonszám (phone)
  • E-mail
  • Távolság (distance)
  • Dátum (date)
  • Idő (Time)
  • Koordináta (lat/long)
  • Anatómia (anatomy)
  • Tevékenység (activity)
  • Nyelv (language)
  • Élelmiszer (food)
  • Anyagnév (substance)
  • Betegség (disease)
  • Esemény (event)
  • Faj (species)
  • Mérték (measure)
  • Vegyes entitások (MISC)
  • Közlekedés (transport)

Támogatott nyelvek

  • Magyar (2018. szeptembertől)
  • Arab
  • Egyszerűsített kínai
  • Trandícionális kínai
  • Holland
  • Angol
  • Francia
  • Német
  • Héber
  • Indonéz
  • Olasz
  • Japán
  • Koreai
  • Maláj
  • Pastu
  • Perzsa
  • Portugál
  • Orosz
  • Spanyol
  • Svéd
  • Urdu
  • Vietnámi

A támogatott entitástípusok nyelvenként eltérőek lehetnek, de a felhasználók – az igényeknek megfelelően – tetszőleges számú újat vezethetnek be. Tudjon meg többet az entitáskinyerésről!

Hogyan tehető még pontosabbá az entitáskinyerés?

A Rosette Adaptation Studio (RAS) egy felhasználóbarát alkalmazás amely a nem szakmai felhasználók számára készült. Az intuitív felületen a REX által kinyert entitásokon felül tetszőleges új címke kategóriák vezethetőek be, ezt a folyamatot pedig maga az ügyfél is elvégezheti, hiszen az nem feltétlenül igényli adattudós vagy NLP szakember bevonását. Az alkalmazás használatával pedig felgyorsul és hatékonyabbá válik az annotációs folyamat.

Hogyan működik a folyamat?

1. szint: Csak adatok hozzáadása

Az adaptáció legegyszerűbb szintje, az úgynevezett „felügyelet nélküli tréningelés”, amely szinte teljesen felhasználóvezérelt lehet. A Rosette hozzáférést biztosít egy korszerű klaszterezési eszközlánchoz, amelyhez a felhasználó bármilyen mennyiségű saját adatot hozzáadhat – ilyenkor nincs szükség annotációra! Bármilyen már meglévő dokumentumból – amely a kinyerendő adatokra jellemző – a REX egy új, az adatai sajátosságaihoz igazított modellt épít, drámaian növelve az entitáskinyerés pontosságát.
Ez a felügyelet nélküli folyamat lehetővé teszi, hogy a Rosette megtalálja az entitásokat a felhasználó adatai által használt műfajban, stílusban és szókincsben, a szócsoportok gondolatai alapján, azaz „a hasonló szavak általában hasonló kontextusban jelennek meg”. Következésképpen a REX jobban megérti az ismeretlen szavakat körülvevő kontextust, és ennek eredményeképpen meglévő, jól meghatározott klaszterekbe sorolja őket.

2. szint: Egy kis annotáció sokat segíthet

A még nagyobb pontosság érdekében a felhasználó az adatok egy kis részét megjegyzésekkel láthatja el, és aktívan megtaníthatja a REX-nek a dokumentumaiban közös entitások egyedi kontextusait. Már néhány száz annotált dokumentum is drámai javulást eredményezhet a pontosságban. A Rosette Adaptation Studio (RAS) segítségével az annotált dokumentumok hozzáadása a meglévő REX-modell erősítéséhez sokkal gyorsabb és hatékonyabb, mint a hagyományos annotációs módszerek.

Régebben az annotátorok nem tudták megmondani, hogy mikor annotáltak elég dokumentumot ahhoz, hogy elérjék a kívánt pontossági szintet. A RAS – egy felhasználóbarát, webes alkalmazás, amely koordinálja több annotátor munkáját, így a hagyományos módszereknél exponenciálisan gyorsabban hozza létre a képzési adatokat.

Hogyan segít a Rosette Adaptation Studio?

A felhasználó valóban hatékonyan és gyorsan haladhat az annotálási folyamattal, hiszen a Rosette Adaptation Studio többek között az alábbiakkal segíti az annotálási folyamatot:
Ideiglenes modellek kihasználásával: a tréningelés során néhány dokumentum címkézésével egy átmeneti modellt hoz létre.
Hatékony annotálással: az aktív tanulási technológia előnyben részesíti azokat a címkézetlen dokumentumokat, amelyeket az ideiglenes modell a legkevésbé pontosnak ítél meg, így ezek kerülhetnek hamarabb annotálásra.
Számítógéppel támogatott címkézéssel: az ideiglenes modell előzetesen címkézi a dokumentumokat, így a felhasználók csak a hibákat javítják, a folyamat így gyorsabb, mintha minden dokumentum címkézése. kézzel, egyenként történne
Iteratív modellértékeléssel: A rendszer folyamatosan méri a modell pontosságát, lehetővé téve, hogy az annotálás leálljon, amint a kívánt pontosság megvalósul*.
* ehhez újabb fájlok hozzáadása szükséges, ez esetben nem tanításra, hanem kiértékelésre.

a Rosette Adaptation Studio kezelőfelülete
annotációs felület a Rosette Adaptation Studio-ban

Alacsonyabb költségek, jobb modellek

A Rosette Annotation Studio (RAS) a szükséges adatok és az időráfordítás mennyiségének csökkentésével lerövidíti és igazán hatékonnyá teszi a modell képzésével járó munkát, különösen a nagyon specifikus természetes nyelvfeldolgozó modellek esetében.
Az egyedi entitások kinyerése mostantól nagyon leegyszerűsödik. Az ügyfelek rendkívül gyorsan betaníthatják és felépíthetik az új NLP modellt.
A megoldással 4-szer gyorsabb a munkavégzés, mint a hagyományos szövegannotációs módszerekkel.*
* a Basis Technology belső tesztjei alapján

Együtt jobb

A Rosette Adaptation Studio kiváló kiegészítője a REX-nek, amelyhez most a Rosette Entity Extractor felhasználók ingyenesen juthatnak hozzá. Sőt, tekintettel arra, hogy a legtöbb ügyfél szívesen fogad útmutatást az adatok kiválasztásában, az új modell felépítésében és az eredmények kiértékelésében, a Precognox Kft., – mint a Basis Technology partnere – külön szolgáltatás formájában szakmai segítséget nyújt a tréningelési folyamathoz.*

*amennyiben az ügyfél a Rosette megoldásait a Precognox Kft.-n keresztül rendelte meg.

A progresszív entitáskinyerés eredménye: hatékonyabb intelligens keresés

A szövegtestekből történő entitáskinyerés természetesen nem öncélú folyamat, hanem a sokkal hatékonyabb és felhasználóbarátabb keresési folyamat alapköve.
A különböző entitástípusok (nevek, dátumok, időpontok, földrajzi helyek, pénznemek, stb.) mind-mind szűrési opciók lehetnek a keresőmotorok esetében, általuk pedig pillanatok alatt leszűkíthetőek a keresési találatok.

Szűrők a vállalati keresőben_2
az entitáskinyerés segítségével könnyedén leszűkíthetőek a keresési találatok

A Precognox által fejlesztett TAS Vállalati kereső, illetve a TAS Tagger címkéző esetében a Basis Technology megoldásait integráljuk, így többek között a Rosette entitásfelismerő, illetve névazonosító modulját.