O tom, ako prebieha komunikácia medzi človekom a strojom, čo sú sociálne roboty a ako ich možno využiť pri diagnostike Alzheimerovej choroby, sme sa rozprávali s Róbertom Sabom z Ústavu informatiky SAV, v. v. i.

Mgr. Róbert Sabo, PhD., je vedeckým pracovníkom Ústavu informatiky Slovenskej akadémie vied, v. v. i. Získal magisterský titul v odbore slovenský jazyk a literatúra na Univerzite Komenského v Bratislave a doktorský titul obhájil v oblasti počítačovej lingvistiky na Jazykovednom ústave Ľudovíta Štúra Slovenskej akadémie vied, v. v. i. Odborne pôsobí v oblasti lingvistiky a fonetiky, vo výskume prozódie, vytváraní rečových korpusov, výskume expresívnej reči a v komunikácii človeka so strojom. Je autorom a spoluautorom niekoľkých aplikácií a viac ako 40 vedeckých prác v oblasti spracovania reči a počítačovej lingvistiky.
Čo vás ako jazykovedca zaviedlo na Ústav informatiky SAV?
Oddelenie analýz a syntézy reči Ústavu informatiky Slovenskej akadémie vied, na ktorom teraz pracujem, spolupracovalo s Filozofickou fakultou Univerzity Komenského na tvorbe rečovej databázy a hľadali študentov, ktorí by pomáhali nahrávať rečové nahrávky. A ako napovedá názov oddelenia, pre lingvistu bolo práce dosť, a tak som na Ústave informatiky doteraz.
Informatika nie je len o číslach, jednotkách a nulách, ale aj o tom, ako vieme číslami reprezentovať svet okolo nás a v rámci toho aj náš jazyk.
Navyše súčasný rozmach veľkých jazykových modelov, ktoré ľudia poznajú ako ChatGPT alebo Gemini, pekne ukazuje, že informatika nie je len o číslach, jednotkách a nulách, ale aj o tom, ako vieme číslami reprezentovať svet okolo nás a v rámci toho aj náš jazyk.
Ktorým výskumným oblastiam sa s kolegami venujete na oddelení analýzy a syntézy reči?
V minulosti som hovoril o tom, že učíme počítače rozumieť ľudskej reči (prepisovať reč do textu) a učíme ich rozprávať ľudskou rečou (prevod textu na reč). V súčasnosti však skúmame komunikáciu medzi človekom a strojom oveľa viac do hĺbky a do reči napríklad vkladáme emócie alebo v nej identifikujeme stres. Na komunikáciu medzi človekom a strojom sa pozeráme ako na komplexnú záležitosť, tak aby stroj mohol byť plnohodnotným konverzačným partnerom.
Čo rozumieme pod rozpoznávaním reči a jej syntézou?
Pod rozpoznávaním reči rozumieme technológiu, ktorá umožňuje počítačom a iným digitálnym zariadeniam porozumieť hovorenej ľudskej reči a previesť ju do textovej podoby. Táto technológia je základom pre diktovanie textu, ovládanie zariadení hlasom alebo automatické titulky vo videách.

Naopak, syntéza reči je proces, pri ktorom počítač generuje ľudskú reč z písaného textu. Túto technológiu často počujeme pri navigáciách v autách, pri čítačkách pre zrakovo postihnutých alebo napríklad pri audioknihách generovaných umelou inteligenciou.
Celý článok nájdete v časopise Quark 7/2025.
Vďaka predplatnému si ho však môžete dočítať už teraz a získať aj prístup k exkluzívnemu obsahu!
Máte predplatné?
Prihlásiť saFoto archív R. Saba
