FAQ

Glasovne tehnologije


Najčešća pitanja o glasovnim tehnologijama

Što su neuronske mreže i na koji se način koriste u glasovnim tehnologijama?

Umjetna neuronska mreža je računalni model koji se koristi u području učenja strojeva (umjetna inteligencija). Ovaj računalni model trenutno donosi najbolje rezultate između mnogih drugih aplikacija koje se temelje na umjetnoj inteligenciji (prepoznavanje objekata unutar slika, glasovno raspoznavanje, prevođenje s jednog jezika na drugi). Struktura ovog računalnog modela nadahnuta je strukturom neuronskih mreža koje se mogu naći u prirodi, npr. u mozgu. Prema tome, umjetna neuronska mreža sastoji se od velikog broja malih računalnih jedinica (neurona) koje su isprepletene u nizu serijskih i paralelnih strujnih krugova. Kao i mozak, mreža može učiti – u procesu učenja, težina se spojeva između pojedinačnih neurona prilagođava u umjetnoj neuronskoj mreži. Bilo koji neuron u mreži tada šalje signal sljedećem sloju, no samo ako ukupna količina ulaznih signala, pomnožena naučenim faktorima težine, prelazi određeni prag vrijednosti (slično se događa u radu neurona u ljudskom mozgu).

Koje su prednosti korištenja neuronskih mreža u glasovnom raspoznavanju naspram prethodnih sustava?

Sustav učenja strojeva koji koristi neuronske mreže nudi značajno veću preciznost u glasovnom raspoznavanju. Ovo se jasnije vidi u težim uvjetima rada, npr. kada se transkribira kompresirana snimka, kada u pozadini snimke postoji pozadinska buka, kada je zvuk sniman s veće udaljenosti, itd. U takvim slučajima, neuronska mreža može polučiti bolje rezultate, pošto je sama po sebi jača od prethodnih verzija sustava.

Može li vaš sustav za glasovno raspoznavanje učiti sam od sebe/samostalno?

S gledišta teorije učenja strojeva, jedna od prednosti neuronskih mreža jest, da ako su dovoljno duboke, mreža može sama stvarati interne apstraktne indekse između slojeva, koji su bolji od onoga što čovjek može stvoriti iz obrađenog signala kroz razne sofisticirane transformacije i algoritme. No, i prethodni se algoritmi moraju naučiti. Ovo nije novost u neuronskim mrežama. Važno je zapamtiti kako nijedan sustav ne može samostalno učiti. Uvijek je potreban učitelj koji omogućava da se znanje primi i primijeni.

Koliko je značajan napredak koji nosi neuronska mreža i gdje je on vidljiv?

U idealnim uvjetima, gdje god je prijašnji sustav dobro radio, možemo očekivati relativni pad u pogreškama od 1% do 2%. To može uvećati preciznost s 90% na od 91% do 92%. U težim uvjetima, gdje je prijašnji sustav radio s točnošću od npr. 40% do 60%, možemo očekivati znatno bolje rezultate, npr. oko 80%.

Kako izgleda proces učenja u neuronskim mrežama i koliko traje?

Učenje pomoću nekoliko stotina sati glasovnih snimki traje oko 24 sata, koristeći jednu jaku grafičku karticu.

FAQ

NEWTON Dictate


Sve što morate znati o programu za automatsko prepoznavanje diktiranog teksta.

Koja je razlika između sustava NEWTON Dictate i platforme Beey?

NEWTON Dictate se koristi za izradu dokumenata, nalaza, za diktiranje bilješki i slično. Služi za pretvaranje govora u tekst u realnom vremenu. Moguće je i ponovno diktiranje u ranije napravljene dokumente. S druge strane, platforma Beey je prikladna za optimizaciju procesa izrade zapisnika, budući da omogućuje transkripciju i uređivanje postojećih audio/video datoteka (snimke intervjua, sastanaka itd.).

Što mogu diktirati uz pomoć sustava NEWTON Dictate?

NEWTON Dictate je prikladan za diktiranje općih tekstova na standardnom jeziku. Za diktiranje stručnih tekstova potreban je odgovarajući specijalizirani rječnik (npr. pravni, medicinski…)

Koji su jezici podržani?

NEWTON Dictate sustav trenutno je dostupan na hrvatskom, slovenskom, srpskom, češkom, poljskom i slovačkom jeziku.

Koja je minimalna preporučena specifikacija računala potrebna da bi sustav ispravno radio?

Procesor min. Intel Core i5 (najmanje 1.7 GHz), 4GB RAM-a

OS: Windows 8.1, 10 i 11; 32 ili 64-bitna.

Min. 600 MB HDD. (s općim rječnikom)

Standardna zvučna kartica koja podržava brzinu uzorkovanja od 16kHz, sa 16-bitnom rezolucijom.

Microsoft .NET framework verzija 4.8 ili novija verzija je potrebna za instalaciju NEWTON Dictate verzije 5.1.0.86 ili novije verzije.

Naš sustav radi i na sporijim računalima, no transkripcija može biti značajno odgođena ili narušena.

Mogu li za diktiranje koristiti bilo koji mikrofon?

Interni mikrofoni ugrađeni u računala nisu prikladni za diktiranje.

Za korištenje se preporučuju profesionalni uređaji za diktiranje – usmjereni mikrofoni ili slušalice s mikrofonom. 

Philips uređaji za diktiranje i mikrofoni odlikuju visokom kvalitetom mikrofona, mnogim ugrađenim filterima (redukcija buke itd.), otpornim kućištima i nizom drugih naprednih tehnologija koje povećavaju čistoću glasovnih zapisa. Samim time, rezultat korištenja NEWTON Dictate sustava za pretvaranje govora u tekst je puno bolji. NEWTON Technologies Adria distributer je uređaja za diktiranje i mikrofona renomiranog proizvođača, Philips SPS sa sjedištem u Beču.                                              

Ukoliko ste zainteresirani za preporučenu dodatnu opremu, kontaktirajte nas na podrska@diktiranje.hr.

Što će sustav NEWTON Dictate napisati ako izdiktiram riječ koja nije u rječniku?

NEWTON Dictate uvijek pokušava prepoznati diktat u cijelosti, stoga se nepoznate riječi ne pojavljuju kao praznine, već se zamjenjuju fonetski najsličnijom varijantom. Ako trebate više puta diktirati nepoznatu riječ, možete je dodati u korisnički rječnik.  NEWTON Dictate će naučiti riječ i prepoznati je u sljedećem diktatu.

Koje formate mogu koristiti za spremanje dobivenog teksta?

Prepoznati tekst može se pohraniti u standardnom RTF ili TXT formatu. NEWTON Dictate također zadržava audio snimku Vašeg diktata koju zatim možete izvesti u MP3, WAV ili SPX formatima. Ukoliko želite nastaviti raditi s tekstom i zvučnim zapisom u NEWTON Dictate-u, sustav omogućuje spremanje cijelog dokumenta u TTAX formatu.

Može li se moj diktat upisati izravno u neki drugi program koji koristim?

Ukoliko želite da NEWTON Dictate transkribira Vaš diktat izravno u drugi program, možete koristiti funkciju „MINI“ koja upisuje diktirani tekst na trenutačno mjesto pokazivača miša. To omogućuje diktiranje u bilo koju aplikaciju, informacijski sustav ili internetski preglednik.

Što mogu učiniti ako me sustav ne razumije?

Ukoliko nailazite na poteškoće s prepoznavanjem Vašeg govora, prvo provjerite je li mikrofon odabran u postavkama i pravilno postavljen ispred usana. Uvodni vodič u NEWTON Dictate će Vas voditi kroz postavke mikrofona korak po korak. Pogrešno postavljen mikrofon najčešći je uzrok problema s funkcionalnošću sustava.

Mogu li diktirati ako imam manju govornu manu?

Da, NEWTON Dictate će se automatski prilagoditi glasu novog korisnika te je sposoban eliminirati posljedice manjih govornih nedostataka kao što je nemogućnost pravilnog izgovora zvuka.

FAQ

Platforma Beey


Najčešće postavljana pitanja o platformi Beey.

Koja je razlike između platforme Beey i sustava NEWTON Dictate?

Platforma Beey je prikladna za optimizaciju procesa izrade zapisnika, budući da omogućuje transkripciju i uređivanje postojećih audio/video datoteka (snimke intervjua, sastanaka itd.).

NEWTON Dictate se koristi za izradu dokumenata, nalaza, za diktiranje bilješki i slično. Služi za pretvaranje govora u tekst u realnom vremenu. Moguće je i ponovno diktiranje u ranije napravljene dokumente.

Kako napraviti dobru snimku?

Kako bi snimka bila dobra, pobrinite se da snimate u okruženju sa što manje pozadinske buke. Govorite blizu uređaja za snimanje ili mikrofona, ali nemojte vikati. Planirate li primjerice snimati mobitelom, govorite direktno u mobitel kao da telefonirate.

Kakav mikrofon trebam koristiti?

Preporučujemo korištenje revernih mikrofona (“clip mic”) ili specijalizirane opreme za podcaste. Za snimanje u konferencijskim sobama koristite visokokvalitetne konferencijske sustave. Ako trebate pomoć pri odabiru uređaja za snimanje, slobodno se obratite našoj korisničkoj podršci.

U kojem formatu trebam spremiti snimku?

Ako možete odabrati u kojem formatu ili kvaliteti će se snimka spremati, odaberite MP3 ili WAV format. Možete koristiti i AAC (MP4 audio), VORBIS ili OPUS.

Koje tehničke parametre trebam postaviti prilikom snimanja?

Optimalna frekvencija uzorkovanja je 16 kHz. Ako postavite višu frekvenciju, rezultat se neće puno poboljšati, ali će Vaša snimka biti nepotrebno velika. Drugi ključni parametar je takozvani bitrate. Postavite ga na najveću vrijednost, najmanje 128 kbps.

Mono ili stereo?

Vaša će snimka obično biti stereofonična, odnosno jedna traka za lijevi, a druga za desni zvučni kanal. Međutim, treba napomenuti da je prepoznavanje glasa uvijek monofonično, što znači da se oba kanala spajaju u jedan prije nego što dođe do prepoznavanja. Ako možete odabrati način snimanja, odaberite mono.

Napomena: MP3 datoteke mogu sadržavati niz specifičnih svojstava, kao što su ugrađene slike itd. To ne utječe na kvalitetu transkripcije, ali može uzrokovati probleme s obradom, stoga ne preporučujemo spremanje dodatnih informacija u datoteke.

Radi li Beey s različitim video formatima?

Beey radi s većinom video formata. Međutim, kod nekih nestandardnih formata može doći do pogrešaka tijekom obrade ili, primjerice, izvoza titlova.

Napomena: Kod video i audio datoteka nije moguće osloniti se na ekstenziju datoteka kao kod tekstualnih dokumenata ili slika.

Koji je preporučeni video format?

Preporučujemo korištenje MP4 datoteka. U nekim slučajevima bit će potrebno spremiti datoteku u ispravnom formatu prije nego što je učitate na Beey.

Detaljniji opis ispravnog video formata: MP4 spremnik (datoteka), MP3 ili AAC audio zapis, H.264 video kodek, faststart format s fragmentiranim MP4 sadržajem. Video i audio datoteke trebale bi imati konstantan FRAMErate i BITrate.

Ako naiđete na probleme sa svojom datotekom, kontaktirajte našu korisničku podršku.

Kako mogu saznati je li video datoteka u ispravnom formatu?

Najbrži i najjednostavniji način da saznate je li Vaš videozapis u ispravnom formatu je da ga reproducirate u Google Chromeu. Sve što trebate učiniti je povući i ispustiti datoteku u prozor preglednika ili na ikonu preglednika na radnoj površini.

Ako se datoteka počne reproducirati, ona je u ispravnom formatu i Beey bi je trebao obraditi bez ikakvih poteškoća.

Koja je preporučena duljina snimke?

Beey jamči obradu snimki u trajanju do dva sata bez poteškoća. Ukoliko je potrebno, moguće je učitati dulje snimke, ali imajte na umu da platforma može raditi sporije i da se mogu pojaviti poteškoće tijekom uređivanja.

Ukoliko trebate obraditi dužu snimku, preporučujemo da je podijelite na manje segmente prije nego što je učitate na platformu Beey.


Nazovite nas ili nam ostavite poruku. Odgovorit ćemo Vam u najkraćem mogućem roku.


NEWTON Technologies Adria d.o.o.
Domagojeva 2
10 000 Zagreb
Republika Hrvatska

E: info@diktiranje.hr