Kõnetöötlus

edit

Kõnetöötluseks nimetatakse tegevust, mille käigus analüüsitakse, töödeldakse, edastatakse või salvestatakse signaali. Enamasti kasutatakse seda digitaalsete lahenduste juures tõlkimaks andmeid analoogsest signaalist digitaalseks signaaliks, mida kasutatakse mitmete elektrooniliste lahenduste juures. Erinevateks kõnetöötlusmeetoditeks saab nimetada kõne sünteesi, kõne analüüsi, kõne tuvastust ning kõne töötlust.[1]

Ajalugu

edit
 
Thomas A. Watson hoidmas käes tema ja Alexander Graham Belli loodud telefoni

19. sajand

edit

10. märtsil aastal 1876 esitles Alexander Graham Bell koos oma assistendi Thomas A. Watsoniga maailmale esmakordselt esimest meetodit, kuidas edastada signaali kasutades telegraafiat. Tema leiutise nimeks sai telefon. Mõned päevad hiljem tegi Bell oma assistendiga kõne, mille abil räägiti üksteisega esimesed sõnad kasutades selleks nende loodud telefoni.

Aasta hiljem tõi Thomas Edison inimesteni fonograagi, millega sai salvestada muusikat või ka seda mängida. Fonograaf on grammofon.

Charles Sumner Tainter koos Alexander Graham Belliga otsustasid täiendada Edisoni leiutist nõnda, et sellel oleks eraldiseisev salvestus komponent. Nimeks sai nende leiutisel grafofon, millele nad said patendi aastal 1886. Esimesed fonograafilaadsed seadmed kasutasid algul salvestuste esitamiseks alumiiniumfooliumi sisse peidetud seadet.

1898. aastal tuli Bell välja vahast silindri kujulise fonograafi komponendiga, mille tootmine oli odavam, praktilisim ja kvaliteetsem. Selleks kasutati papptükki, mis oli üle kaetud vahaga. Samal aastal tuli Valdemar Poulsen välja traatsalvestus seadmega, mida ta nimetas telegrafofoniks. Selle seadmega oli võimalik salvestada inimkõne või signaali õhukestele terastraadi tükkidele.[2][3]

20. sajand

edit
 
Peidetud Markov Mudeli diagramm

Esimene kõnetuvastus süsteem leiutati firmas Bell Laboratories aastal 1952, kust sai alguse süsteem nimega Audrey.

1961. aastal tutvustas IBM enda süsteemi Shoebox, mis suutis arusaada inimkõnest ning vastata inglise keeles kuueteistkümne sõnaga.

Leonard E. Baum ning teised koostööpartnerid esitlesid maailmale Peidetud Markovi Mudelite (ingl k Hidden Markov Models) nimelist süsteemi, mis leidis esmalt kasutust kõnetuvastuses. Mõned aastad hiljem hakati seda kasutama bioloogilise järjestuse ülesseadmisel, mille abil oli võimalik paika panna geenide järjestus organismides. Erinevalt varasematest süsteemidest, suutis see süsteem tundmatust helist tuvastada sõnu.

Järjest enam arenes elektroonika ning paralleelselt sellega ka arvutid. Protsessorid jõudsid esmakordselt maailma ning tekkisid mitmed kõnetöötlus tarkvarad, mis olid kättesaadavad juba tavainimestele. 1990. aastal lõi firma nimega Dragon esimese kõnetuvastuse tarkvara Dragon Dictate, mille hinnaks oli 9000 $. Mõned aastad hiljem jõudis sama firma poolt ka Dragon Dictate täiendatud versioon Dragon NaturallySpeaking, mille hinnaks oli 695$ ning mis suutis tuvastada juba inimkõne ehk suutis töödelda 100 sõna minutis.[4][5]

Viited

edit
  1. ^ "Speech Processing - an overview | ScienceDirect Topics". www.sciencedirect.com. Retrieved 2023-03-26.
  2. ^ Jones, Linda (2019-02-25). "The Amazing History of Speech Recognition Technology | Fusion Narrate". Dolbey and Company, Inc. Retrieved 2023-03-26.
  3. ^ "A brief history of speech recognition". Sonix. Retrieved 2023-03-26.
  4. ^ Eddy, Sean R. (2004-10). "What is a hidden Markov model?". Nature Biotechnology. 22 (10): 1315–1316. doi:10.1038/nbt1004-1315. ISSN 1546-1696. {{cite journal}}: Check date values in: |date= (help)
  5. ^ "Speech Recognition Through the Decades: How We Ended Up With Siri". PCWorld. Retrieved 2023-03-26.