Bacheloroppgave 2018
Studium: Dataingeniør

 

Tittel - norsk: Ende-til-ende talegjenkjenning med recurrent neural networks og connectionist temporal classification
Tittel - engelsk: End-to-end speech recognition with recurrent neural networks and connectionist temporal classification

Oppgave nr.: 61

Oppgavestiller: NTNU / IDI

 

Kontaktperson: Ole Christian Eidheim

 

Telefon: 73559574

E-postadresse: ole.c.eidheim@ntnu.no

 

Postadresse:

Studenter: Anita Kristine Aune, Marit Sundet-Holm

Veileder ved NTNU: Ole Christian Eidheim

 

Sammendrag: Med inspirasjon både fra tidligere forskning innen talegjenkjenning, som eksempelvis "Deep Speech: Scaling up end-to-end speech recognition" av Baidu Research (2014), samt allerede eksisterende ende-til-ende løsninger, er hovedfokuset for denne bacheloroppgaven å skape et enkelt, fungerende ende-til-ende talegjenkjenningssystem ved hjelp av nevrale nettverk. I løsningen vil vi bruke nevrale nettverk som recurrent neural networks (RNN), i tillegg til komponenter som connectionist temporal classification (CTC) – en teknikk som forenkler trening av ende-til-ende nettverk. Vi vil bygge et nettverk hovedsakelig bestående av en RNN-CTC-struktur, og vil måle nøyaktigheten av systemet ved hjelp av ordfeilsraten (word error rate - WER). Avhengig av utfallet vil vi justere parametere i det nevrale nettverket for å se om WER kan forbedres, og sammenligne resultatene. Hovedmålet er å se om vi kan skape et fungerende ende-til-ende talegjenkjenningssystem kun bestående av nevrale nettverk, og å skape et solid grunnlag for videre arbeid.


Abstract in English:  Taking inspiration both from previously researched speech recognition such as “Deep Speech: Scaling up end-to-end speech recognition” by Baidu Research (2014) as well as existing solutions using end-to-end techniques, the main focus of this bachelor thesis is to create a simple, functioning end-to-end speech recognition system using neural networks. We intend to use neural networks such as recurrent neural networks (RNN), in addition to components such as the connectionist temporal classification (CTC) – a technique that simplifies training of end-to-end networks. We intend to build a network consisting of a RNN-CTC structure, and will measure the accuracy of the system using word error rate (WER). Depending on the outcome, we will adjust certain parameters of the neural network, to see if the WER can be improved, and compare the results. The main goal is to investigate whether we can create a functioning end-to-end speech recognition system purely using neural networks, and to create a solid foundation for further work.




Når ikke annet er avtalt, eier studenter selv den IPR (immaterielle rettigheter) de skaper som en del av studier/studieopphold ved IDI Anvendt Informasjonsteknologi (AIT). Alle resultater er åpent tilgjengelig. Opphavsretten reguleres av Åndsverksloven. Avtaler som inngås mellom IDI AIT og studenter skal som minimum sikre instituttet rett til å bruke generert IPR til utdannings- og forskningsformål. IDI AIT skal også motta en vurderingskopi av arbeidet inkludert eventuell kildekode.

Marker med kryss det som gjelder denne oppgaven:

 

 

Normalsituasjonen: Studentene har selv alle rettigheter knyttet til resultatet fra bacheloroppgaven, med de unntak som er beskrevet over.

 

Oppdragsgiveren har rettighetene og kan utnytte produktet kommersielt og videreutvikle produktet/metoden. Instituttet vil ikke utnytte produktet kommersielt, men vil kunne arbeide videre med den grunnlagskompetansen som er vunnet gjennom prosjektet, som beskrevet over.

X

Resultatene fra arbeidet legges ut som OpenSource iht lisens

GNU GPL (https://www.gnu.org/licenses/gpl-3.0.en.html)

 

Bacheloroppgaven (det skriftlige arbeidet) skal være undergitt utsatt offentliggjøring i ____ (maks 3) år.