TAS Data Collector

Számos internetes forrásból gyűjthet strukturált és nem strukturált adatokat, amelyek önállóan vagy más szolgáltatásokba ágyazva használhatóak fel.

beszéljünk

Mi a TAS Data Collector?

A TAS Data Collector szolgáltatás – a TAS szöveganalitikai platform részeként – képes az interneten található strukturálatlan adatokat (szöveges tartalmakat) letölteni oly módon, hogy a tartalmakat strukturált formába rendezni, ezáltal elérhetővé teszi más információs rendszerek számára, illetve alkalmassá a további feldolgozásra, elemzésre vagy vizualizálásra.

A TAS Data Collector által legyűjtött tartalmak azonnal hasznosíthatóak, vagy alapjául szolgálhatnak a TAS Platform további, egymásra épülő moduljaival megvalósítható szöveganalitikai munkafolyamatoknak.

Az adatgyűjtési folyamat részletei

  • a megrendelő által megjelölt weboldalak (vagy azon belül található részegységek) adatai (szöveges tartalmai) a szolgáltatás által legyűjtésre kerülnek
  • a további lépéseket (adattisztítás, adatgazdagítás, validálás) szakembereink felügyelete mellett valósítja meg a rendszer
  • a folyamat végeredményeként olyan strukturált adatbázis jön létre, mely már alkalmas a további adatfeldolgozásra (elemzés, vizualizálás) vagy alapjául szolgálhat további szöveganalitikai megoldásoknak
  • a legyűjtött, megfelelő formátumú tartalmak biztosítása, átadása a megrendelő felé (akár egy authentikált, jelszóval védett csatornán keresztül)

A TAS Data Collector jellemzői

  • a szolgáltatás képes egy webhelyről legyűjteni a látható adatokat, metaadatokat (címkéket, képleírást) vagy akár a lapszámozást.
  • az aloldalak, a dinamikus, trükkös lapozású, hierarchikus, diavetítéssel rendelkező vagy többnyelvű tartalmú, esetleg bejelentkezést igénylő oldalak sem okoznak problémát az adatlegyűjtés folyamán
  • rejtett adatok esetén egy screenshot-megoldást kínálunk (képernyőkép az adatok eredeti pontos megjelenítésével)
  • a robots.txt által – megjelölt tartalmakat tiszteletben tartjuk, így azok nem kerülnek letöltésre
  • számos különböző dokumentumból és képformátumból (PDF, táblázatkezelő, diagram vagy képfájlformátumok) lehetséges a szövegkinyerés
  • Felkészültek vagyunk bármilyen szükséges kimeneti formátum előállítására és szállítására, még azokra is, amelyek szoftverfejlesztést igényelnek
  • a kimeneti formátum: JSON kiterjesztés, de egyéb formátum is lehetséges (például MySQL adattábla, melynek elemzése, vizualizásása azonnal lehetséges a legismertebb business intelligence eszközökkel (részletek a technikai leírás menüpontban)

Világszínvonalú adatgyűjtés

Az internetről származó tartalom is része lehet egy vállalat adatvagyonának, vagy alapja lehet világszínvonalú projekteknek, mint például a DIGIWHIST, ami a közbeszerzési adatokkal foglalkozik. A Precognox megoldása ezen webes tartalom gyűjtésére a TAS Data Collector.

Az adatgyűjtés céljának elérése

Az adatok gyűjtése ritkán önálló folyamat, a fő cél általában az, hogy az egész vállalati adatvagyonon átívelő átfogó keresési képességet érjünk el. Tudj meg többet arról, hogyan lehet sikeres vállalati adatgyűjtéstől az intelligens keresésig eljutni.

Mire használhatók a legyűjtött tartalmak?

  • kutatásokhoz, fejlesztési projektekhez
  • újabb tartalmak, publikációk megírásához
  • szolgáltató-, információnyújtó-, tematikus gyűjtőoldalak, blogok, közérdekű- és open data portálok adatokkal történő feltöltéséhez
  • elemzések, statisztikák, vizualizációk létrehozásához
  • vállalati folyamatok / működés biztosításához, adatmentésre (webhely, internetes adatbázis állapotának lementéséhez)
  • konkurenciafigyeléshez
  • kereshető adatbázisok létrehozásához
  • mesterséges intelligencia megalkotásához, gépi tanuláshoz
  • adatváltozások nyomon követéséhez

Adatgyűjtés veszteségek nélkül

Az üzleti tartalmak esetében a legfontosabb szabály, hogy a vállalati adatgyűjtés veszteségek nélkül valósuljon meg. Adatgyűjtési mechanizmusunk olyan beépített kontrolling metódust alkalmaz, amely garantálja a fenti cél megvalósulását.

A TAS Data Collector megjelenése

A TAS Data Collector GUI lehetőséget nyújt a letöltési adatfolyam figyelemmel kísérésére. A kezelőfelület megjelenése a TAS Platform arculatához illeszkedik.

A kezelőfelület az alábbiakról ad tájékoztatást:

  • források áttekintése: melyek vannak bekötve, honnan mennyi rekord érkezik, mennyi a valid és mennyi a hibás rekord
  • össz-rekordszám áttekintése, időbeni alakulásuk
  • gyűjtés állapota
  • mikor futott a gyűjtés