Ta strona wykorzystuje pliki cookies. Korzystając ze strony, zgadzasz się na ich użycie. OK Polityka Prywatności Zaakceptuj i zamknij X

Automatyczne rozpoznawanie mowy - wybrane zagadnie

02-06-2012, 19:35
Aukcja w czasie sprawdzania była zakończona.
Cena kup teraz: 57.80 zł     
Użytkownik ksiazka_gliwice
numer aukcji: 2332295332
Miejscowość Gliwice
Wyświetleń: 11   
Koniec: 18-05-2012 11:31:17

Dodatkowe informacje:
Stan: Nowy
Okładka: miękka
Kondycja: bez śladów używania
Język: polski
info Niektóre dane mogą być zasłonięte. Żeby je odsłonić przepisz token po prawej stronie. captcha

Automatyczne rozpoznawanie mowy - wybrane zagadnienia

Ryszard Makowski


oprawa: miękka
rok wydania: 2011
format: B5
stron: 382


Problem automatycznego rozpoznawania mowy, czyli rozpoznawania mowy przez urządzenia, intryguje naukowców i projektantów od lat 40. XX w., kiedy to w sprzedaży pojawiły się pierwsze urządzenia reagujące na głos. W tym czasie problemem tym zajęły się dwie znaczące instytucje naukowe: Bell Telephone Laboratories i Massachusetts Institute of Technology. Pojawienie się w latach 50. XX w. komputerów stworzyło realne szanse na praktyczną realizację idei automatycznego rozpoznawania mowy. Upłynęło jednak sporo czasu zanim w połowie lat 70. ubiegłego wieku, na zamówienie marynarki Stanów Zjednoczonych Ameryki, powstał taki system o nazwie ARPA, który jednak zawiódł pokładane w nim nadzieje. Mniej więcej w tym samym czasie powstała idea zastosowania do rozpoznawania mowy metodologii ukrytych szeregów Markowa, radykalnie zmieniająca efektywność takich systemów.
Mimo że od początków badań dotyczących automatycznego rozpoznawania mowy upłynęło kilkadziesiąt lat, i pomimo że problemem zajmują się liczne zespoły badawcze na całym świecie, problem ten nie został definitywnie rozwiązany. Dostępne systemy automatycznego rozpoznawania mowy wykazują bowiem gorszą skuteczność niż człowiek. Fakt ten zmusza do refleksji i jednocześnie pokazuje, jak bardzo problem ten jest skomplikowany. Należy jednocześnie pamiętać, że mózg człowieka w tej kwestii wykazuje niewiarygodną efektywność.
Istnieją jednak rozwiązania komercyjne, które realizują automatyczne rozpoznawanie mowy w sposób zadowalający, a użytkownicy kupują je i eksploatują. Są to rozwiązania pewnego zamkniętego, mniejszego problemu. Przykładem takim jest urządzenie do obsługi głosem telefonu komórkowego w samochodzie. W krajach takich, jak: Niemcy, Francja czy Wielka Brytania urządzenia te zyskały znaczną popularność. W tym przypadku system rozpoznawania mowy służy do nawiązywania rozmowy, a inne algorytmy umożliwiają prowadzenie jej w czasie jazdy bez odrywania rąk od kierownicy, co zdecydowanie poprawia bezpieczeństwo
jazdy. Dotychczas nie udało się natomiast opracować skutecznego konwertera mowy na tekst, co niewątpliwie byłoby cennym rozwiązaniem.
Niniejsza książka została zainspirowana doświadczeniami Autora, wynikającymi z kilkuletniej pracy w niewielkim zespole badawczym, której celem było opracowanie systemu automatycznego rozpoznawania mowy języka polskiego dla firmy THB Bury, producenta urządzeń głośnomówiących. Celem książki nie jest jednak prezentacja konkretnego rozwiązania, które jest własnością zamawiającego, ale zaprezentowanie opracowanych i wykorzystywanych metod i algorytmów oraz pokazanie różnorodności możliwych rozwiązań. Książka zawiera wiele odwołań do publikacji naukowych i może być źródłem wiedzy dla potencjalnych projektantów takich systemów.
W przekonaniu Autora, ze względu na złożoność zagadnienia, każdy zespół badawczy dochodzi do innego rozwiązania. Wymiana doświadczeń pomiędzy zespołami jest ograniczona ze względu na znaczną komercyjną wartość gotowych rozwiązań. Aktualny stan badań w tym zakresie jest taki, że nie jest wiadomo jak zbudować system uniwersalnie rozpoznający mowę ze skutecznością porównywalną z umiejętnościami człowieka. Z drugiej jednak strony, stan wiedzy ogólnie dostępnej umożliwia projektowanie mniej wyrafinowanych systemów rozpoznawania mowy, nawet przy zaangażowaniu niewielkich zasobów. Realizacja jednak zaawansowanych systemów rozpoznawania mowy ciągłej dostępna jest jedynie dla dużych zespołów badawczych. Przystępując do realizacji zadania zbudowania systemu realizującego automatyczne rozpoznawania mowy, trzeba mieć świadomość, że w tak złożonym systemie każdy szczegół jest niezwykle istotny, a takich szczegółowych kwestii jest bardzo dużo.
Autor pragnie podziękować wielu osobom, które w różny sposób miały wpływ na powstanie tej książki. W szczególności pragnę podziękować Profesorowi Janowi Zarzyckiemu za zachętę, zainteresowanie i liczne dyskusje merytoryczne. Równie serdecznie pragnę podziękować Państwu Renacie i Henrykowi Burym, którzy zainicjalizowali prowadzenie przeze mnie badań opisywanych w tej książce oraz wspierali je finansowo. Dziękuję też moim współpracownikom: Marzenie Zagrodnik, Krystianowi Łuszkiewiczowi i Pawłowi Mrówce za wykonanie części eksperymentów badawczych. Serdeczne podziękowania pragnę złożyć również mojej żonie Elżbiecie za pomoc w redagowaniu książki.

SPIS TREŚCI:

Przedmowa

Rozdział 1. WPROWADZENIE
1.1. Czym jest automatyczne rozpoznawanie mowy
1.2. Poziomy rozpoznawania
1.3. Warianty automatycznego rozpoznawania mowy
1.4. Organizacja książki

Rozdział 2. MOWA I SYGNAŁ MOWY
2.1. Generowanie sygnału mowy
2.2. Sygnał mowy i jego losowy cłiarakter
2.3. Budowa i właściwości organu słuchu człowieka
2.3.1. Poziom głośności dźwięku, krzywe jednakowej głośności
2.3.2. Poziom głośności a głośność
2.3.3. Wysokość dźwięku, skala melowa
2.3.4. Pasma krytyczne, skala barkowa
2.3.5. Maskowanie częstotliwościowe i czasowe
2.3.6. Podsumowanie
2.4. Jednostki fonetyczne
2.4.1. Fonemy mowy polskiej
2.4.2. Podział fonemów
2.4.3. Inne jednostki fonetyczne
2.4.4. Podsumowanie
2.5. Nauka rozumienia mowy przez człowieka i mówienia
2.6. Uczenie systemu ARM i automatyczne rozpoznawanie

Rozdział 3. PARAMETRYZACJA SYGNAŁU MOWY
3.1. Rejestracja sygnału
3.1.1. Warunki akustyczne rejestracji
3.1.2. Warunki techniczne rejestracji
3.1.3. Wybór częstotliwości próbkowania
3.2. Wstępne przetwarzanie
3.2.1. Usuwanie wartości średniej
3.2.2. Skalowanie
3.2.3. Preemfaza
3.3. Prosty algorytm detekcji aktywności mówcy
3.4. Podział sygnału na ramki i okienkowanie
3.5. Cele parametryzacji sygnału mowy
3.6. Melowe współczynniki cepstralne (MFCC)
3.7. Melowe współczynniki cepstralne - możliwe warianty
3.7.1. Parametry estymacji widma
3.7.2. Parametry filtrów melowych
3.7.3. Szerokości filtrów motywowane skalą ERB
3.7.4. Operacja nieliniowa na wartościach widma
3.7.5. Spłaszczanie widma i maskowanie czasowe
3.7.6. Wpływ okresowości pobudzenia na widmo sygnału mowy
3.8. Inne metody parametryzacji
3.8.1. Cepstrum z widma liniowego
3.8.2. Współczynniki prognozy liniowej
3.8.3. Współczynniki odbicia i logarytm stosunku współczynników odbicia
3.8.4. Współczynniki cepstralne określone ze współczynników prognozy
3.8.5. Współczynniki prognozy liniowej z psychoakustyczną modyfikacją widma
3.8.6. Trasformacja falkowa
3.9. Wskaźniki głośności
3.10. Parametry dynamiczne
3.11. Wektor obserwacji
3.12. Podsumowanie

Rozdział 4. UCZENIE ROZPOZNAWANIA I ROZPOZNAWANIE JEDNOSTEK FONETYCZNYCH
4.1. Czynniki wpływające na sygnał mowy
4.1.1. Różnice międzyosobnicze
4.1.2. Różnice wewnątrzosobnicze
4.1.3. Różnice regionalne
4.1.4. Kontekst fonetyczny
4.1.5. Warunki środowiskowe
4.2. Zaplanowanie i realizacja nagrań
4.3. Segmentacja i etykietyzacja sygnału mowy
4.4. Losowy charakter współczynników parametryzacji
4.5. Rozkłady prawdopodobieństwa i histogramy
4.6. Kwantyzacja wektora obserwacji
4.7. Aproksymacja histogramów, estymatory rozkładów prawdopodobieństwa
4.8. Metodyka rozpoznawania wypowiedzi na poziomie ramek
4.9. Porównywanie skuteczności metod parametryzacji
4.9.1. Skuteczność kompletnych systemów ARM
4.9.2. Zdolności klasyfikacyjne modeli fonemów
4.9.3. Rozpoznawanie pojedynczych ramek
4.10. Podział fonemów na trifony
4.11. Podsumowanie

Rozdział 5. USTALANIE CIĄGU JEDNOSTEK FONETYCZNYCH
5.1. Dopasowywanie czasowe
5.1.1. Nieliniowe dopasowanie czasowe
5.1.2. Ograniczenia w metodzie dopasowania czasowego
5.1.3. Podsumowanie
5.2. Dyskretne procesy Markowa
5.3. Ukryte modele Markowa
5.4. Zagadnienia do rozwiązania związane z HMM
5.5. Rozwiązanie problemu oceny
5.6. Rozwiązanie problemu detekcji
5.6.1. Algorytm Viterbiego
5.7. Klasyczne rozwiązanie problemu estymacji
5.7.1. Algorytm Baum-Walcha
5.7.2. Właściwości algorytmu Baum-Walcha
5.7.3. Modyfikacja algorytmu Baum-Walcha dla licznego zbioru uczącegc
5.8. Nieergodyczne ukryte modele Markowa
5.9. Ukryte modele Markowa z ciągłymi rozkładami prawdopodobieństwa . . .
5.10. Czasy trwania stanów w modelach Markowa
5.10.1. Dyskretna postać czasów trwania stanów
5.10.2. Ciągła postać czasów trwania stanów
5.10.3. Zależne od czasu modelowanie przejść
5.11. Uwagi dotyczące implementacji
5.11.1. Skalowanie wartości prawdopodobieństw częściowych
5.11.2. Warunki początkowe
5.11.3. Uczenie z ograniczeniami
5.11.4. Szeregi Markowa a detekcja aktywności mówcy
5.12. Wybór modelu HMM
5.13. Inne podejścia do problemu uczenia
5.14. Przykładowe wyniki 2. etapu rozpoznania
5.15. Podsumowanie

Rozdział 6. KOŃCOWY ETAP ROZPOZNAWANIA
6.1. Rozpoznawanie bazujące na dopasowaniu modelu
6.2. Rozpoznawanie bazujące na sylabach
6.2.1. Definicja pseudosylaby
6.2.2. Ogólny schemat postępowania
6.2.3. Odległość pomiędzy fonemami
6.2.4. Odległości pomiędzy pseudosylabami
6.3. Rozpoznawanie komend
6.3.1. Obliczanie odległości i rozpoznanie
6.3.2. Uczenie algorytmu końcowego rozpoznawania komend
6.4. Rozpoznawanie numerów
6.4.1. Definicja dwu-cyfr
6.4.2. Algorytm rozpoznawania numerów
6.4.3. Uczenie algorytmu końcowego rozpoznawania numerów
6.5. Podsumowanie

Rozdział 7. ALGORYTMY WSPOMAGAJĄCE ROZPOZNAWANIE
7.1. Rozpoznawanie w warunkach występowania szumu
7.2. Odszumianie sygnału mowy
7.2.1. Estymacja widmowej gęstości mocy szumu
7.2.2. Realizacja odszumiania
7.2.3. Modyfikacje opisanego algorytmu
7.2.4. Implementacja algorytmu w systemie rozpoznawania komend
7.2.5. Modyfikacja sygnału lub modelu związana z obecnością szumu
7.3. Detekcja aktywności mówcy
7.3.1. Statystyczny YAD bazujący na pojedynczej ramce
7.3.2. Statystyczny VAD bazujący na uśrednieniu widm ramek
7.3.3. Statystyczny VAD bazujący na SNR
7.4. Automatyczna segmentacja sygnału mowy
7.4.1. Metoda filtracji parametrycznej
7.4.2. Detekcja zmian sygnału bazująca na prognozie liniowej
7.4.3. Metody segmentacji wykorzystujące rozpoznawanie
7.4.4. Podział wypowiedzi na sylaby
7.4.5. Podsumowanie
7.5. Estymacja tempa wypowiedzi
7.6. Estymacja i wykorzystanie częstotliwości tonu krtaniowego
7.6.1. Algorytm cepstralny estymacji
7.6.2. Algorytm bazujący na błędzie prognozy
7.6.3. Algorytm korelacyjny z funkcjami grzebieniowymi
7.6.4. Algorytm korelacyjny estymacji
7.6.5. Histogramy częstotliwości tonu krtaniowego
7.7. Podsumowanie

Rozdział 8. KOMPENSACJA CECH OSOBNICZYCH I WPŁYWÓW ŚRODOWISKOWYCH
8.1. Kompensacja wpływu zmian środowiskowych i zmienności osobniczych na jakość rozpoznawania
8.1.1. Wpływ zniekształceń i zakłóceń na współczynniki cepstralne
8.1.2. Klasy metod kompensacji cech osobniczych i wpływów środowiskowych
8.2. Odporna parametryzacja
8.2.1. Parametryzacja bazująca na estymatorze minimalnej wariancji
8.2.2. Parametryzacja z optymalnymi filtrami modelującymi słuch
8.3. Grupowanie mówców
8.3.1. Częstotliwość tonu krtaniowego jako wskaźnik wielkości kanału głosowego
8.3.2. Grupowanie bazujące na parametrach kanału głosowego
8.3.3. Grupowanie na bazie szybkości mówienia
8.3.4. Grupowanie na bazie współczynników parametryzacji
8.4. Normalizacja wektora obserwacji
8.4.1. Usuwanie wartości średniej cepstrum
8.4.2. Usuwanie wolnych i szybkich zmian z sekwencji widm
8.4.3. Standaryzacja cepstrum
8.4.4. Nieliniowa normalizacja cepstrum
8.4.5. Korygowanie rozkładów prawdopodobieństwa
8.4.6. Normalizacja opierająca się na aproksymacji funkcji zniekształceń
8.4.7. Normalizacja a długość kanału głosowego
8.4.8. Metoda banków transformacji widma
8.5. Adaptacja parametrów modelu statystycznego
8.5.1. Metoda regresji liniowej i maksymalizacji prawdopodobieństwa
8.5.2. Adaptacja w przestrzeni wektorów własnych
8.6. Podsumowanie

Dodatek A. Wykaz ważniejszych oznaczeń i skrótów
A.1. Oznaczenia
A.2. Skróty

Dodatek B. PROBABILISTYCZNY MODEL SYGNAŁU, WEKTOROWA ZMIENNA LOSOWA
B.1. Losowy charakter sygnału mowy, konstrukcja modelu probabilistycznego
B.2. Statystyki procesu
B.3. Stacjonarność procesu
B.4. Statystyki i parametry procesu stacjonarnego
B.5. Ergodyczność procesu
B.6. Procesy normalne
B.7. Statystyki wzajemne
B.8. Lokalna stacjonarność
B.9. Wektorowa zmienna losowa

Dodatek C. ELEMENTY TEORII ESTYMACJI
C.1. Definicje błędów estymacji
C.2. Klasy estymatorów
C.3. Estymatory statystyk procesu
C.4. Estymatory widmowej gęstości mocy procesu
C.5. Spektrogram

Dodatek D. ELEMENTY TEORII DETEKCJI
D.1. Detekcja składowej o stałej wartości
D.2. Miary jakości detekcji
D.3. Twierdzenie Neymana-Pearsona
D.4. Detekcja Bayesa
D.5. Ryzyko Bayesa
D.6. Podsumowanie

Bibliografia
Skorowidz