Mi a TAS Data Collector?
A TAS Data Collector szolgáltatás – a TAS szöveganalitikai platform részeként – képes az interneten található strukturálatlan adatokat (szöveges tartalmakat) letölteni oly módon, hogy a tartalmakat strukturált formába rendezni, ezáltal elérhetővé teszi más információs rendszerek számára, illetve alkalmassá a további feldolgozásra, elemzésre vagy vizualizálásra.
A TAS Data Collector által legyűjtött tartalmak azonnal hasznosíthatóak, vagy alapjául szolgálhatnak a TAS Platform további, egymásra épülő moduljaival megvalósítható szöveganalitikai munkafolyamatoknak.
Az adatgyűjtési folyamat részletei
- a megrendelő által megjelölt weboldalak (vagy azon belül található részegységek) adatai (szöveges tartalmai) a szolgáltatás által legyűjtésre kerülnek
- a további lépéseket (adattisztítás, adatgazdagítás, validálás) szakembereink felügyelete mellett valósítja meg a rendszer
- a folyamat végeredményeként olyan strukturált adatbázis jön létre, mely már alkalmas a további adatfeldolgozásra (elemzés, vizualizálás) vagy alapjául szolgálhat további szöveganalitikai megoldásoknak
- a legyűjtött, megfelelő formátumú tartalmak biztosítása, átadása a megrendelő felé (akár egy authentikált, jelszóval védett csatornán keresztül)
A TAS Data Collector jellemzői
- a szolgáltatás képes egy webhelyről legyűjteni a látható adatokat, metaadatokat (címkéket, képleírást) vagy akár a lapszámozást.
- az aloldalak, a dinamikus, trükkös lapozású, hierarchikus, diavetítéssel rendelkező vagy többnyelvű tartalmú, esetleg bejelentkezést igénylő oldalak sem okoznak problémát az adatlegyűjtés folyamán
- rejtett adatok esetén egy screenshot-megoldást kínálunk (képernyőkép az adatok eredeti pontos megjelenítésével)
- a robots.txt által – megjelölt tartalmakat tiszteletben tartjuk, így azok nem kerülnek letöltésre
- számos különböző dokumentumból és képformátumból (PDF, táblázatkezelő, diagram vagy képfájlformátumok) lehetséges a szövegkinyerés
- Felkészültek vagyunk bármilyen szükséges kimeneti formátum előállítására és szállítására, még azokra is, amelyek szoftverfejlesztést igényelnek
- a kimeneti formátum: JSON kiterjesztés, de egyéb formátum is lehetséges (például MySQL adattábla, melynek elemzése, vizualizásása azonnal lehetséges a legismertebb business intelligence eszközökkel (részletek a technikai leírás menüpontban)
Világszínvonalú adatgyűjtés
Az internetről származó tartalom is része lehet egy vállalat adatvagyonának, vagy alapja lehet világszínvonalú projekteknek, mint például a DIGIWHIST, ami a közbeszerzési adatokkal foglalkozik. A Precognox megoldása ezen webes tartalom gyűjtésére a TAS Data Collector.
Az adatgyűjtés céljának elérése
Az adatok gyűjtése ritkán önálló folyamat, a fő cél általában az, hogy az egész vállalati adatvagyonon átívelő átfogó keresési képességet érjünk el. Tudj meg többet arról, hogyan lehet sikeres vállalati adatgyűjtéstől az intelligens keresésig eljutni.
Mire használhatók a legyűjtött tartalmak?
- kutatásokhoz, fejlesztési projektekhez
- újabb tartalmak, publikációk megírásához
- szolgáltató-, információnyújtó-, tematikus gyűjtőoldalak, blogok, közérdekű- és open data portálok adatokkal történő feltöltéséhez
- elemzések, statisztikák, vizualizációk létrehozásához
- vállalati folyamatok / működés biztosításához, adatmentésre (webhely, internetes adatbázis állapotának lementéséhez)
- konkurenciafigyeléshez
- kereshető adatbázisok létrehozásához
- mesterséges intelligencia megalkotásához, gépi tanuláshoz
- adatváltozások nyomon követéséhez
Adatgyűjtés veszteségek nélkül
Az üzleti tartalmak esetében a legfontosabb szabály, hogy a vállalati adatgyűjtés veszteségek nélkül valósuljon meg. Adatgyűjtési mechanizmusunk olyan beépített kontrolling metódust alkalmaz, amely garantálja a fenti cél megvalósulását.
A TAS Data Collector megjelenése
A TAS Data Collector GUI lehetőséget nyújt a letöltési adatfolyam figyelemmel kísérésére. A kezelőfelület megjelenése a TAS Platform arculatához illeszkedik.
A kezelőfelület az alábbiakról ad tájékoztatást:
- források áttekintése: melyek vannak bekötve, honnan mennyi rekord érkezik, mennyi a valid és mennyi a hibás rekord
- össz-rekordszám áttekintése, időbeni alakulásuk
- gyűjtés állapota
- mikor futott a gyűjtés