Tmavé pozadí

Jak pracuje LISSA s leaky – kolekce Iron March

Linda Dittrichová
Linda Dittrichová 28. 3. 2024
Jak pracuje LISSA s leaky – kolekce Iron March

Nástroj LISSA pomáhá analyzovat i obrovské dokumenty, což je běžnými nástroji mnohdy časově náročné, pro uživatele bez znalostí specifických technologií v podstatě nemožné. Velké dokumenty jsou často součástí tzv. leaků, uniklých informací, které mohou představovat celospolečenské riziko. Je proto třeba umět taková data rychle a kvalitně zpracovat, aby mohla být adekvátně vyhodnocena. Jak LISSA přistupuje k velikostně enormním souborům je ukázáno na datech z kolekce Iron March.

Uniklá data

V roce 2019 unikla na internet kolekce dat z Iron March, neofašistického webového fóra, které bylo aktivní v letech 2011-2017. Data z kolekce byla mnohokrát zpracovávána (např. investigativními novináři z Bellingcat), proto si můžeme naše nálezy porovnat se zveřejněnými výsledky.

Podívejme se nejprve, jaká data kolekce obsahuje. Po stažení máme k dispozici necelý 1 GB informací, mj. soubory s příponami .csv a .sql – a především na tyto typy souborů se zaměříme.

Umisteni.png

Obr.: Adresářová struktura kolekce.

 

Soubory .csv jsou textové soubory, určené pro výměnu tabulkových dat, v nichž jsou hodnoty zapsány do řádků v podobě řetězců oddělených čárkami. Soubory .csv mívají v prvním řádku názvy jednotlivých „sloupců“ (což v Excelu odpovídá záhlaví tabulky). 

Csv.png

Obr.: Výřez ze zobrazení souboru .csv z kolekce. V souboru „core_members.csv“ jsou na prvním řádku záhlaví postupně názvy odpovídající ID člena, jménu, ID členské skupiny, e-mailu atd. Od druhého řádku jsou vyplňovány hodnoty, tedy člen č. 1, jménem Alexander Slavros (zapsáno v azbuce), je zařazen ve 4. skupině, s e-mailem slavros_a@mail.ru... Členem číslo 2 je PhalNat z 13. skupiny s pozoruhodně dlouhou e-mailovou adresou…

 

Ve zpracovávané kolekci máme stovku souborů .csv o celkové velikosti 239 MB, největší z nich přesahuje 100 MB.

Soubor .sql zastoupený ve vstupních datech má přes 750 MB a jedná se o tzv. database dump, tedy výpis relační databáze, obsahující schéma definující její strukturu a vložená data. 

Sql1.png

Sql2.png

Obr.: Soubor databázového výpisu .sql. První část zobrazuje část pokynů k tvorbě tabulky „core_members“, druhá část ukazuje, jak jsou do ní vkládány záznamy výše uvedeného člena č. 1. Soubor byl otevřen v programu Visual Studio Code, jednoduché textové editory mají se soubory takových velikostí problémy.

 

Z uvedených obrázků je zřejmé, že s ohledem na velikost a strukturu souborů je pro uživatele bez znalostí databází a přístupu ke specializovanému softwaru nelehké nad daty kvalitně vyhledávat. Problém představují např. komplexnější dotazy vyžadující operátory nebo selekce mnohočetných výsledků ze souboru. Takové soubory, ač jsou přímo nabity důležitými informacemi, často zůstávají v obecných analýzách stranou kvůli pracnosti a časové náročnosti jejich zpracování.

 

DYI pracovní plocha

Staženou kolekci jako celek jsme nechali automaticky zpracovat nástrojem LISSA. Než se v uživatelském prostředí podíváme na výsledky procesu, vložíme si na pracovní plochu zvolené vizualizace atributů, se kterými budeme chtít pracovat. Nemusí jít přitom o finální verzi, kdykoliv během analýzy můžeme pracovní plochu libovolně přestavovat, rozšiřovat o další atributy nebo ukončovat zobrazování těch nepotřebných. Pochopitelně můžeme využít pracovní plochu vytvořenou pro jiné projekty, která vyhovuje našim aktuálním potřebám.

Z prvotního pohledu na data jsme vydefinovali, co by nám mohlo v orientaci v datech pomoci: 

  • Přehled datumů indexace dokumentů z kolekce – k tomu použijeme časovou osu. 
  • Informace o typech souborů – k jejich prezentaci zvolíme koláčový graf. 
  • IP adresy a e-maily členů fóra; víme z předchozích náhledů, že jsou v datech obsaženy - připravíme si widgety se zaškrtávacími poli zohledňující tato data. Stejné zobrazení využijeme i pro jazyk použitý v textu – může nám také poskytnout cenná vodítka.
  • Četnost detekovaných obecných jmen – zobrazíme ve widgetu word cloud (slovní mrak). Nabídnuté termíny mohou být prospěšné, pokud zrovna nejsme experty na problematiku extrémismu.
  • Informace o struktuře uložení dat, které mohou být žádoucí pro lepší a rychlejší orientaci – pro tyto účely využijeme sloupcové grafy.

Obrazovka.png

Obr.: Přizpůsobená pracovní plocha.

 

Myslet a klikat

LISSA zpracovala celou kolekci, a tak se můžeme pustit do zkoumání dat. Nejprve si ověříme, že byly zpracovány všechny typy souborů. Po zvolení složky, do které jsme nechali uložit kolekci Iron March, se obsahy výsledkové listiny i všech widgetů přepočítají. 

Na pracovní ploše máme dva koláčové grafy týkající se typů – první je sémantický, do kterého jsou data rozčleněna dle významu, druhý je klasickým typem (formátem) souboru. Databázový sémantický typ obsahuje dle předpokladů dvě skupiny – .csv a .sql. Překvapit by nás ale mohly jejich počty. 

Podívejme se na widget znázorňující umístění informací. Struktura uložení souborů zůstává stejná jako ve vstupní kolekci, jen se mnohonásobně zvýšil počet uložených informací – např. v adresáři, kde byla stovka souborů .csv, je nyní téměř 700.000 informačních jednotek, z jednoho databázového dumpu .sql jich vzniklo přes 160.000. Proč tomu tak je?

Pocty.png

Obr.: Původní soubory .csv a .sql jsou rozděleny na velké množství informačních jednotek.

 

Gigantický rozdíl v počtech informačních jednotek před a po zpracování souvisí se schopností LISSA zpracovávat nejen obrovské soubory, ale zároveň je poskytovat uživateli v co nejpřijatelnější formě. Nemá přece smysl najít někde v ohromném souboru informaci, a přitom neznat souvislosti. Proto LISSA rozdělila soubory na dílčí jednotky, které vždy obsahují záhlaví a řádek odpovídajících hodnot (položek), u výpisu databáze .sql ještě předtím identifikovala jednotlivé tabulky s názvy sloupců. Vytvořené „poddokumenty“ vždy nesou informace o svém rodiči.

Detail.png

Obr.: Výše uvedený příklad člena s č. 1 zpracovaný a zobrazený v LISSA – vlevo informační jednotka ze souboru typu .sql, vpravo z .csv.

 

Pojďme se nyní podívat na obsah dat.

Fórum Iron March dalo vzniknout síťově propojeným komunitám pravicových extrémistů, stalo se organizační platformou nadnárodní neofašistické sítě. Asi málokoho překvapí, že se jako nejvíce detekované jméno ve word cloudu objevuje nechvalně proslulý německý diktátor. 

Mezi jmény však nalezneme i jméno „Alexander Slavros“, člena č. 1 identifikovaného ve vstupních dokumentech. Z otevřených zdrojů můžeme zjistit, že jde o přezdívku zakladatele fóra Iron March osoby Alisher Mukhitdinov. Pomocí nástroje LISSA si nyní zkusíme ověřit, odkud se Slavros přihlašoval.

Aktivováním jeho jména ve slovním mraku vidíme, že tato akce odfiltrovala i výsledky v seznamu e-mailů. Kliknutím na e-mail slavros_a@mail.ru se nám zobrazí jeden výsledek a s ním spojená IP adresa. V externích zdrojích pak dohledáme, že je registrována v Ruské federaci, městě Dolgoprudnyj. 

IP.png

Obr. Zdroj: https://whatismyipaddress.com/ip/178.140.119.217 

 

Vycházeli jsme však pouze z jednoho údaje, informaci je třeba potvrdit. Pokud nyní vymažeme všechny filtry kromě IP adresy, můžeme vidět, že nebyla náhodně zvolena, je se Slavrosem spojena i v dalších dokumentech. Tímto způsobem ověříme i ostatní IP adresy spojené se zájmovou osobou. Na základě zjištěného e-mailu i IP adres pak můžeme konstatovat, že zakladatel fóra působil s velkou pravděpodobností z Ruska.

Zkusíme jméno prověřit i v přepisu v azbuce, pro přesnou shodu dáme jméno do uvozovek -"Александр Славрос". 

Vysledek.png

Obr.: Výsledky hledání přesné shody.

 

Vidíme, že byly nalezeny tisíce výsledků, s jejich procházením nám může pomoci informace o tom, v jaké z tabulek .sql byly informace zařazeny. Základní poznatky o členech nám poskytne tabulka nazvaná „core_members“.

Tabulky.png

Obr.: Data ze souborů .sql jsou rozdělena do tabulek, jejich filtrováním lze zrychlovat a zlepšovat výsledky vyhledávání.

 

Po výběru tabulky získáme výsledkovou listinu obsahující 1208 dílčích jednotek, přičemž každá z nich obsahuje hodnoty definované v její struktuře týkající se vždy jednoho registrovaného člena fóra. Kromě dříve zjištěných informací můžeme v detailech jednotlivých výsledků najít např. poznatky o datu narození, termínu registrace, poslední aktivitě na fóru nebo o identitě uživatele v dalších sociálních sítích.

Nyní víme, kde získat základní ustanovující informace o osobách.  Ponecháme-li si ve filtrech pouze tabulku členů fóra, můžeme si postupně projít osoby, které nás zajímají. Je až děsivé zjišťovat, kolik osob skrylo do své přezdívky nebo e-mailu nacistickou symboliku.

Ve fóru se používala jako společný jazyk angličtina, ve které bylo i nastavení zobrazení a navigace na stránkách. Není tedy překvapující, že v registrovaných IP adresách dominují ty z anglofonních zemí. Ale najdeme uživatele i odjinud (mj. jsme odhalili i IP adresu registrovanou v Česku). Pokud se snažíme zjistit místo působení konkrétních osob, může nám napovědět i vyhledávání koncovky poskytovatelů e-mailových služeb, možností je také podívat se na detekované jazyky. Protože jsme měli LISSU pro tento případ nastavenou pouze na rozpoznávání angličtiny a ruštiny, jsou všechny další jazyky schované pod jednou položkou. Po jejím vybrání a omezení hledání pouze na tabulku zpráv „core_message_posts“ lze dohledat texty třeba ve francouzštině nebo španělštině.

Popsaný postup si můžete prohlédnout ve videu:

 

Závěr

V článku jsme naznačili pouze některé kroky, které nám LISSA nabízí při analýze uniklých dat. Je třeba si uvědomit, že nám systém nenabízí plné databázové možnosti (jako propojení identifikovaných tabulek přes klíče). Ale co není, může být… Nástroj LISSA vylepšujeme dle požadavků uživatelů každý den.

I když projdeme informace ke všem členům fóra, stále zbývá spousta možností, jak pokračovat v analýze. Můžou nás zajímat témata řešená v jednotlivých skupinách uživatelů. Naše zkoumání lze libovolně rozšiřovat vizualizací a analýzou hodnot dalších zpracovaných atributů (např. časových razítek nebo detekovaných URL). Zajímavé výsledky mohou vzejít z komplexních dotazů. Zkrátka kreativitě se v nástroji LISSA meze nekladou.

Pro ukázku jsme využili uniklé informace z fóra Iron March. Kapacitně není pro nástroj LISSA problémem pracovat s mnoha leaky najednou a poznatky propojovat. Jiné uniklé kolekce budou s velkou pravděpodobností rozdílně strukturované. Pro získání maximálního užitku z dat bude tedy možná vhodné pracovat s jinými atributy, přizpůsobovat si prostředí aktuálním cílům analýzy. S LISSOU si však můžeme být jistí, že zpracuje soubory .csv a .sql vždy tak, že nejenže nepřijdeme o žádné informace, ale ani se v informacích sami neztratíme.

Linda Dittrichová
Linda Dittrichová 28. 3. 2024