Tmavé pozadí

Úvod do analýzy nestrukturovaných dat

Miroslav Tamáš
Miroslav Tamáš 26. 12. 2023
Úvod do analýzy nestrukturovaných dat

Pokud máte velké množství nestrukturovaných dat, dost pravděpodobně potřebujete z těchto dat dolovat cenné informace a souvislosti. Jak se ale vyznat v záplavě různých pojmů, přístupů a technologií? Analýzou nestrukturovaných dat se ve společnosti DATERA zabýváme již řadu let a v naší sérií článků věnovaných této oblasti vás postupně provedeme možnostmi, jak je možné k analýze nestrukturovaných dat přistupovat.

Úvod do analýzy nestrukturovaných dat

Společnost DATERA se již řadu let věnuje analýze nestrukturovaných dat a pomáhá svým zákazníkům nacházet v nich skryté informace a souvislosti. Rozhodli jsme se s vámi podělit o naše zkušenosti z této oblasti. Problematika analýzy velkých objemů nestrukturovaných dat je však značně rozsáhlá, proto se jí budeme věnovat v celé sérií článků zaměřených na jednotlivé oblasti a způsoby řešení.

V tomto úvodním článku série se velmi stručně zaměříme na představení dané problematiky, vysvětlení základních pojmů a naznačíme směr, kterým se budou ubírat navazující články této série.

Co jsou to nestrukturovaná data?

Než se vůbec pustíme do představení problematiky analýzy nestrukturovaných dat, tak musíme vysvětlit základní pojem, tedy tzv. nestrukturovaná data.

Nestrukturovaná data jsou informace v mnoha různých formách, které se neřídí konvenčními datovými modely. Typicky mají taková data vnitřní strukturu, ale neobsahují předem určený datový model nebo schéma. 

Jedním z nejběžnějších typů nestrukturovaných dat je volně psaný text. Nestrukturovaný text je generován a ukládán v široké škále formátů, například dokumentů Word, e-mailových zpráv, prezentací v PowerPointu, přepisů interakcí call centra, příspěvků z blogů nebo stránek sociálních médií. 

Dalším příkladem nestrukturovaných dat jsou audio nahrávky rozhovorů, videozáznamy, fotografie nebo interakce uživatelů chatů a sociálních sítí.

Velká většina nových dat, která se dnes generují, je nestrukturovaná, což vedlo ke vzniku nových platforem a nástrojů k jejich správě a analýze. Tyto nástroje umožňují organizacím snadněji využívat nestrukturovaná data a nacházet v nich skryté informace a souvislosti.

Kromě uvedených nestrukturovaných dat existují další dva základní typy dat - strukturovaná a semi-strukturovaná. Detailnějšímu představení všech typů se budeme věnovat v dalších článcích.  

Proč analyzovat nestrukturovaná data?

Nestrukturovaná data jsou nositelem obrovského množství potencionálně cenných informací. Narozdíl od strukturovaných dat, která poskytují relevantní informace o tom, že se něco děje, jsou nestrukturovaná data schopna odpovědět na otázku PROČ se to děje.

Příkladem výše uvedeného může být telefonát klienta na kontaktní centrum. Strukturovaná data z telefonní ústředny vám poskytnou detailní informace o tom, kdo a kdy volal, kdo hovor vyřídil, jak dlouho vyřízení trvalo atd. Nicméně, abyste se dozvěděli důvod volání, tedy proč klient zvedl telefon a volal, musíte porozumět informacím obsaženým v nestrukturovaných datech přepisu telefonického rozhovoru.

Jak přistupujeme k analýze nestrukturovaných dat?

Naším primárním cílem při analýze dat je schopnost adresovat všechny specifické vlastnosti vstupních dat a požadavky kladené na jejich analýzu. Vytvořili jsme proto vlastní platformu, která nám umožňuje lehkou integraci a orchestraci dostupných řešení (především z oblasti open-source) s názvem Absolute Intelligence, zkráceně AbsInt.
  
Platforma AbsInt je modulární distribuovaný systém, který umožňuje rychle a efektivně zpracovávat a analyzovat nestrukturovaná data a nacházet v nich skryté informace a souvislosti. Primárním zdrojem dat jsou soubory uložené na souborovém systému, nicméně obsahuje podporu pro integraci na téměř libovolný zdroj dat.

absint-operations.png

Použitím převážně open-source technologií předcházíme proprietárnímu uzamčení (vendor lock-in).

Technicky je systém postaven na čtyřech navzájem nezávislých pilířích, které lze libovolně kombinovat nebo nahradit vašimi dalšími technologiemi:

  1. akvizice dat,
  2. zpracování dat,
  3. vyhledávání (fultextové i sémantické),
  4. analytika.

Akvizice dat je proces, který slouží k připojení platformy na datový zdroj. Následně je schopen detekovat nová data a odesílat je do naší platformy.

Zpracování dat je tvořeno systémem pro zpracování vstupního obsahu, jeho detekci, analýzu, interpretaci a transformaci. V podstatě jde o mozek celé platformy, který se snaží pochopit vstupní nestrukturovaná data a vytěžit z nich zájmové informace. 

Vyhledávání pak poskytuje systému možnost uchovat všechna vytěžená data v datové struktuře, která je optimalizována pro pokládání a rychlé vyhodnocování dotazů.

Analytika neboli analytické rozhraní poskytuje koncovému uživateli funkce pro identifikaci zájmových oblastí a hledání souvislostí.

Závěr

Je toho ale mnohem, mnohem víc. Společně vám v dalších příspěvcích již brzy detailněji představíme jak koncept nestrukturovaných dat, tak naše kompletní řešení pro jejich analýzu.

Miroslav Tamáš
Miroslav Tamáš 26. 12. 2023