FAQ

Glasovne tehnologije


Najčešća pitanja o glasovnim tehnologijama

Što su neuronske mreže i na koji se način koriste u glasovnim tehnologijama?

Umjetna neuronska mreža je računalni model koji se koristi u području učenja strojeva (umjetna inteligencija). Ovaj računalni model trenutno donosi najbolje rezultate između mnogih drugih aplikacija koje se temelje na umjetnoj inteligenciji (prepoznavanje objekata unutar slika, glasovno raspoznavanje, prevođenje s jednog jezika na drugi). Struktura ovog računalnog modela nadahnuta je strukturom neuronskih mreža koje se mogu naći u prirodi, npr. u mozgu. Prema tome, umjetna neuronska mreža sastoji se od velikog broja malih računalnih jedinica (neurona) koje su isprepletene u nizu serijskih i paralelnih strujnih krugova. Kao i mozak, mreža može učiti – u procesu učenja, težina se spojeva između pojedinačnih neurona prilagođava u umjetnoj neuronskoj mreži. Bilo koji neuron u mreži tada šalje signal sljedećem sloju, no samo ako ukupna količina ulaznih signala, pomnožena naučenim faktorima težine, prelazi određeni prag vrijednosti (slično se događa u radu neurona u ljudskom mozgu).

Koje su prednosti korištenja neuronskih mreža u glasovnom raspoznavanju naspram prethodnih sustava?

Sustav učenja strojeva koji koristi neuronske mreže nudi značajno veću preciznost u glasovnom raspoznavanju. Ovo se jasnije vidi u težim uvjetima rada, npr. kada se transkribira kompresirana snimka, kada u pozadini snimke postoji pozadinska buka, kada je zvuk sniman s veće udaljenosti, itd. U takvim slučajima, neuronska mreža može polučiti bolje rezultate, pošto je sama po sebi jača od prethodnih verzija sustava.

Može li vaš sustav za glasovno raspoznavanje učiti sam od sebe/samostalno?
S gledišta teorije učenja strojeva, jedna od prednosti neuronskih mreža jest, da ako su dovoljno duboke, mreža može sama stvarati interne apstraktne indekse između slojeva, koji su bolji od onoga što čovjek može stvoriti iz obrađenog signala kroz razne sofisticirane transformacije i algoritme. No, i prethodni se algoritmi moraju naučiti. Ovo nije novost u neuronskim mrežama. Važno je zapamtiti kako nijedan sustav ne može samostalno učiti. Uvijek je potreban učitelj koji omogućava da se znanje primi i primijeni.
Koliko je značajan napredak koji nosi neuronska mreža i gdje je on vidljiv?

U idealnim uvjetima, gdje god je prijašnji sustav dobro radio, možemo očekivati relativni pad u pogreškama od 1% do 2%. To može uvećati preciznost s 90% na od 91% do 92%. U težim uvjetima, gdje je prijašnji sustav radio s točnošću od npr. 40% do 60%, možemo očekivati znatno bolje rezultate, npr. oko 80%.

Kako izgleda proces učenja u neuronskim mrežama i koliko traje?

Učenje pomoću nekoliko stotina sati glasovnih snimki traje oko 24 sata, koristeći jednu jaku grafičku karticu.

FAQ

NEWTON Dictate


Sve što morate znati o programu za automatsko raspoznavanje diktiranog teksta.

Koja je razlika između ND-a i usluge za prijepis snimki?

NEWTON Dictate najviše cijene oni koji bi htjeli  glasom zapisivati bilješke, izrađivati zapisnike ili diktirati tekst koji su prethodno ručno pisali. Nasuprot tome, usluga prijepisa snimki služi za raspoznavanje prethodno snimljenih audio zapisa i datoteka (kao što su snimke intervjua, sastanaka itd.). Najbolji prijepis snimke možemo dobiti koristeći se programom SpeechGrid.

FAQ

NEWTON SpeechGrid


Najčešće postavljana pitanja o rješenju prijepisa snimki.

Kako mogu isprobati SpeechGrid tehnologiju?

NEWTON SpeechGrid možete isprobati na veoma jednostavan način zahvaljujući NteX programu. Kontaktirajte nas za više informacija.

Kako se upravlja NteX programom?

Svaki naš proizvod sadrži korisnički priručnik. Kontaktirajte nas za više informacija.


Nazovite nas ili nam ostavite poruku. Odgovorit ćemo Vam u najkraćem mogućem roku.


NEWTON Technologies Adria d.o.o.
Domagojeva 2
10 000 Zagreb
Republika Hrvatska

E: info@diktiranje.hr