corner_image corner_image corner_image

Hovorené slovo sa bude dať čítať okamžite

 

Široký riešiteľský kolektív zložený z pracovníkov oddelenia analýzy a syntézy reči Ústavu informatiky SAV pod vedením Ing. Milana Ruska a pedagogických a výskumných pracovníkov Katedry elektroniky a multimediálnych telekomunikácií TU Košice pod vedením doc. Ing. Jozefa Juhára, CSc., vyvinul prvý profesionálny rozpoznávač plynulej reči na Slovensku s veľkým slovníkom (Large Vocabulary Continuous Speech Recognizer – LVCSR). Dosahuje parametre porovnateľné so súčasnými podobnými špičkovými systémami vo svete.

 

Čo je rozpoznávač reči?

Rozpoznávač reči sa zvykne označovať aj anglickým termínom Speech to Text, čo znamená, že prepisuje prednesený text do písomnej podoby. Dodajme, že to robí strojovo a automaticky, v reálnom čase, teda súčasne s tým, ako sa text vyslovuje.

 

Rozpoznávače reči sa používajú v jazykoch, ktorými hovoria mnohé milióny ľudí, ako angličtina, nemčina, japončina či čínština, už roky. Prečo v slovenčine až teraz?

V prvom rade treba povedať, že slovenčina je ohybný jazyk, a teda má viac slovných tvarov než napríklad angličtina. Za slovo sa totiž považuje každý jeho slovný tvar. Takže anglický rozpoznávač musí ovládať asi 80-tisíc slov, slovenský ich však potrebuje až okolo 440-tisíc. Preto je pre angličtinu jednoduchšie pripraviť jazykový mo del a samotný rozpoznávač je tým menej výpočtovo náročný. Na to sa však nemožno celkom vyhovárať, lebo už boli vytvorené rozpoznávače aj pre ohybné jazyky.

 

Oveľa dôležitejším dôvodom je veľkosť trhu. Slovenčina je jazyk, ktorý používa pomerne málo ľudí, preto sa veľkým firmám nie veľmi oplatí investovať veľa úsilia a finančných prostriedkov do budovania rečových databáz, ich anotácie, budovania textových databáz a ich spracovania. Nezanedbateľným faktorom je aj potreba spolupráce s miestnymi jazykovedcami. Každý si vie predstaviť, koľko miliónov ľudí môže potenciálne používať takýto systém na prepis zvukového textu do písanej podoby v angličtine a koľko možno tisícok ľudí by ho mohlo používať na prepisy v slovenčine. Takže návratnosť investícií je neporovnateľná.  

 

Prečo ste si vybrali ako vzorku na vytvorenie rečovej a textovej databázy práve Národnú radu SR?

Jeden dôvod vyplýva z praktickej dostupnosti. Zápisy zo zasadnutia Národnej rady SR v zvukovej i textovej podobe sú od roku 1994 zo zákona voľne prístupné na internete. Preto pre nás mohli slúžiť ako východiskový materiál na anotáciu, ďalšie spracovanie a vytvorenie databázy. Druhý dôvod je, že tento rečový materiál je veľmi konzistentný. Rečníci, ktorí hovoria v parlamente, sú väčšinou zvyknutí hovoriť nahlas a výrazne artikulovať. Navyše sa vyjadrujú pomerne spisovne a vytvárajú logicky pospájané jazykové konštrukcie, čo je veľmi výhodné pre rozpoznávač reči. 

 

Celý článok si môžete prečítať v Quarku.