Ihly v kope sena

Ilustrácia Unsplash/Conny Schneider

Hejt nie je len obsah, ktorý negatívne vplýva na atmosféru na sociálnych sieťach. Keďže je namierený proti istým skupinám obyvateľstva, pôsobí zraňujúco a prispieva k polarizácii spoločnosti. V krajných prípadoch môže ísť aj o závažný akt s právnymi dôsledkami pre jeho autorov.

V každom prípade možno hejt (pozri Quark 10/2022) považovať za jeden z indikátorov, ktoré poukazujú na pochybný zdroj informácií. Aj dátoví vedci spoločnosti Meta zistili, že vyjadrenia, ktoré vyvolávajú hnev, veľmi často obsahovali dezinformácie. Rozpoznanie nenávistného prejavu v obrovskom a neustále pribúdajúcom objeme online obsahu je pritom problematické. Jeho identifikácia by však pomohla odhaliť aj dezinformácie a uľahčiť fact-checking, teda overovanie faktov, čo je našou prioritou v rámci aktivít v projekte CEDMO.

O projekte CEDMO

Stredoeurópske observatórium digitálnych médií (Central European Digital Media Observatory, CEDMO) je nezávislé multidisciplinárne centrum, ktoré má za cieľ identifikovať, skúmať, upozorňovať na hlavné zdroje a príčiny informačných porúch v strednej Európe (predovšetkým na Slovensku, v Česku a Poľsku) a pomôcť spoločnosti čeliť účinkom šírenia dezinformácií v online svete.
Toto medzinárodné konzorcium bolo vytvorené s cieľom navrhnúť súbor krátkodobých a dlhodobých opatrení, ako aj odporúčania, ktoré pomôžu občianskej spoločnosti, verejným inštitúciám a súkromnému sektoru reagovať na klesajúcu dôveru v kľúčové inštitúcie a pomôcť spoločnosti, aby silnejúcemu pôsobeniu nepravdivých a skreslených informácií dokázala lepšie odolávať.
CEDMO spája štyri univerzity a jeden výskumný inštitút zo Slovenska, Česka a Poľska, päť organizácií zameraných na overovanie faktov a jednu technologickú firmu, ktorá prepája CEDMO na Európske observatórium digitálnych médií EDMO.
Slovensko v tomto projekte zastupujú Fakulta masmediálnej komunikácie Univerzity sv. Cyrila a Metoda v Trnave (FMK UCM) a Kempelenov inštitút inteligentných technológií (KInIT). Fact-checkingové organizácie pôsobiace na Slovensku zastupuje slovenská pobočka francúzskej tlačovej agentúry (Agence France-Presse), infosecurity.sk a demagog.sk.
KInIT v rámci projektu vyvíja metódy a nástroje založené na umelej inteligencii, ktorých cieľom je prispieť k poznaniu v tejto oblasti a preniesť tieto poznatky do praxe: teda podporiť fact-checkerov pri ich každodennej práci a nielen efektívnejšie overovať fakty, ale aj rýchlejšie reagovať na novovznikajúce dezinformačné naratívy.
Projekt koordinuje Fakulta sociálnych vied Karlovej univerzity v Prahe a je spolufinancovaný Európskou komisiou prostredníctvom Nástroja na prepájanie Európy. Viac o ňom zistíte na stránke: https://cedmohub.eu/sk/. Táto stránka prináša kľúčové informácie o výskyte dezinformácií v strednej Európe, ale aj pravidelný fact-checking, čiže fakty k overovaným informáciám umožňujúce vytvoriť si názor na príslušnú správu.

Foto Unsplash/Volodymyr Hryshchenko

Strojové učenie…

Umelá inteligencia, konkrétne strojové učenie, dokáže pomôcť nájsť hejt v príslovečnej kope sena nespočítateľného množstva internetových príspevkov. Nástroje umelej inteligencie však nie sú, a ani by nemali byť, konečným sudcom, ktorý hejtera odsúdi. Metódy strojového učenia skôr dokážu pomôcť nenávistný prejav nájsť napríklad na Facebooku, aby jeho administrátori – ľudia – mohli zasiahnuť a problematický príspevok vymazať, prípadne pristúpiť aj k ďalším krokom, ako je zablokovanie účtu hejtera. V príspevku Addressing Hate Speech with Data Science (Hate Speech – Multidisziplinäre Analysen und Handlungsotpionen, 2021) sme poukázali aj na to, čo umelá inteligencia dokáže a čo už nie.
Dôvodov, prečo umelá inteligencia nenahradí ľudskú inteligenciu právnikov, sudcov či iných odborníkov z rôznych inštitúcií pri dokazovaní hejtu, je niekoľko. Umelá inteligencia ťažko nájde v texte dôkaz o tom, že niekoho slovné vyjadrenie je útokom (na základe rasy atď.) a podnecuje nenávisť alebo násilie. Automaticky nemáme možnosť zistiť účinok textu na niekoho iného. Takýto efekt, ak má byť použitý v trestnoprávnom konaní, musí byť dokázaný odborníkmi.

… a čo od neho čakať

Zámer človeka je náročné určiť a dokázať nielen automaticky, ale aj ľuďmi. Pomôcť však môžu fenomény, ktoré s hejtom bývajú spojené – klamanie, nezmysly (bullshitting), manipulácia či zavádzanie a iné.
Vďaka umelej inteligencii dokážeme nájsť prvky v texte, ktoré sú pre nenávistný prejav charakteristické, ako napríklad agresívne výrazy. Na to nám dobre poslúžia metódy, ako sú analýza sentimentu, označovanie tém, detekcia jazyka a zámeru konverzácie.
Keď hovoríme o automatickej identifikácii hejtu, v súčasnosti tým myslíme skôr hejt v textovej podobe. Analýza takéhoto prejavu šíreného prostredníctvom obrázkov a videí predstavuje z pohľadu automatického spracovania ešte náročnejší problém. I keď znova môžu napovedať metadáta a kontext, ako sú demografia používateľa, jeho umiestnenie, čas či spôsob zapojenia sa ľudí na sociálnych sieťach. Tieto prvky však nestačia na odsúdenie hejtera. Môžu byť použité na pomoc moderátorovi pri hľadaní hejtu v kope sena. Ten už nemusí vynaložiť toľko času a energie, koľko by mu zabralo čítanie všetkých príspevkov.

Proces nachádzania

Foto Unsplash/Agence Olloweb

Pri najjednoduchších metódach sa možno pozrieť na zoznamy slov a fráz používaných v nenávistnom prejave – napríklad nadávky. Takýto spôsob však nie je veľmi efektívny, lebo nadávky nie vždy znamenajú hejt. Niekedy sa nadávky používajú aj v priateľskom tóne. A sofistikovanejší hejter si dá pozor, aby tieto slová priamo nepoužil.
Zložitejšie modely strojového učenia sú schopné nájsť hejt pomocou štatistických metód. Prvým a najdôležitejším predpokladom je dostatočne veľký súbor údajov hejtu označený (anotovaný) odborníkmi. Modely sa na týchto dátach následne naučia, ako prejav nájsť aj v inom texte. Fungujú tak, že v dátach hľadajú opakujúce sa vzorce. Všímajú si, ako často sa nejaké slová v texte nachádzajú. Nápoveďou je aj kvalita textu, napríklad jeho čitateľnosť. Bývalý manažér spoločnosti Google Eric Smidt sa vyjadril, že už len kontrola gramatiky by dokázala pomôcť identifikovať hejt.
Neurónové siete, ktoré sú inšpirované ľudským mozgom, dokážu nájsť aj vlastnosti textu, ktoré sú ľudskému oku skryté. Problémom však býva tieto strojové zistenia človeku vysvetliť. Aj na tom však výskumníci v oblasti umelej inteligencie pracujú. V nasledujúcom vydaní Quarku sa budeme venovať práve vysvetliteľnosti konania umelej inteligencie.

Zapojenie verejnosti

Ako sme spomenuli, základom pre automatickú identifikáciu hejtu sú kvalitné dáta, na ktorých sa modely môžu učiť. Problémom však je, že neexistuje široko etablovaný referenčný súbor údajov hejtu, a už vôbec nie pre slovenčinu. Vytvorili sme preto nástroj, v ktorom môže ktokoľvek nahlásiť takýto prejav či iné dezinformácie alebo manipulácie v slovenčine. Stačí si nainštalovať rozšírenie do prehliadača na stránke: https://oznacuj-dezinfo.kinit.sk/.
Spolu sa tak pokúsime aspoň lokálne nahradiť to, čo zamýšľal nasadiť Facebook. V roku 2018 totiž náhodou odhalil tlačidlo na nahlásenie hejtu. Žiaľ, tento zámer sa nikdy nedostal do produkčného nasadenia.

Andrea Hrčková, Ivan Srba, Matúš Pikuliak
Kempelenov inštitút inteligentných technológií
Anglickú verziu článku si môžete prečítať tu.

Podcast E-tika

Ak vás téma zaujala, vypočujte si epizódu podcastu E-tika s názvom O dátach a ľuďoch. Juraj Podroužek a Tomáš Gál sa spolu s hosťom Jakubom Šimkom rozprávali o algoritmoch umelej inteligencie, dátach, ktoré sú nevyhnutné pre ich fungovanie, ale aj o ľuďoch, ktorí sa venujú ich zberu a spracovaniu. Dozviete sa, prečo je ešte vždy potrebný ľudský dohľad nad dátami, ale aj to, prečo by sme pri ich zbere a spracovaní mali byť čo najviac transparentní k ľuďom, ktorých sa týkajú.
Podcast nájdete na stránke: https://kinit.sk/sk/o-datach-a-ludoch/.

Tento článok si môžete prečítať v časopise Quark 11/2022. Ak ešte nie ste našou predplatiteľkou/naším predplatiteľom a chcete mať prístup k exkluzívnemu obsahu, objednajte si predplatné podľa vášho výberu tu.
Komentáre