×Ô¶¯ÓïÒôʶ±ð£¨Auto ** tic Speech Recognition£¬ASR£©,¼ò³ÆΪÓïÒôʶ±ð¡£
²Î¿¼£ºÓïÒôʶ±ð×ÛÊö-´Ó¸ÅÄîµ½¼¼Êõ
1. ¸ÅÊö
ÉùÒô´Ó±¾ÖÊÊÇÒ»ÖÖ²¨£¬ÕâÖÖ²¨¿ÉÒÔ×÷ΪһÖÖÐźÅÀ´´¦Àí£¬ËùÒÔÓïÒôʶ±ðµÄÊäÈëʵ¼ÊÉϾÍÊÇÒ»¶ÎËæʱ¼ä²¥·ÅµÄÐźÅÐòÁУ¬¶øÊä³öÔòÊÇÒ»¶ÎÎı¾ÐòÁС£½«ÓïÒôƬ¶ÎÊäÈëת»¯ÎªÎı¾Êä³öµÄ¹ý³Ì¾ÍÊÇÓïÒôʶ±ð¡£
Ò»¸öÍêÕûµÄÓïÒôʶ±ðϵͳͨ³£°üÀ¨ÐźŴ¦ÀíºÍÌØÕ÷ÌáÈ¡¡¢ÉùѧģÐÍ¡¢ÓïÒôÄ£ÐͺͽâÂëËÑË÷ÕâËĸöÄ£¿é¡£
ÐźŴ¦ÀíºÍÌØÕ÷ÌáÈ¡¿ÉÒÔÊÓ×÷ÒôƵÊý¾ÝµÄÔ¤´¦Àí²¿·Ö£¬Ò»°ãÀ´Ê죬һ¶Î¸ß±£Õæ¡¢ÎÞÔëÉùµÄÓïÒôÊǷdz£Äѵõģ¬Êµ¼ÊÑо¿ÖÐÓõ½µÄÓïÒôƬ¶Î¶¼ÓÐÔëÉùµÄ´æÔÚ£¬ËùÒÔÕýʽ½øÈëÉùѧģÐÍ֮ǰ£¬ÎÒÃÇÐèҪͨ¹ýÏû³ýÔëÉùºÍÐŵÀÔöÇ¿µÈÔ¤´¦Àí¼¼Êõ£¬½«ÐźŴÓʱ¼äÓòת»¯µ½ÆµÂÊÓò£¬È»ºóΪ֮ºóµÄÉùѧģÐÍÌṩÓÐЧµÄÌØÕ÷ÏòÁ¿¡£½ÓÏÂÀ´ÉùѧģÐͻὫԤ´¦Àí²¿·ÖµÃµ½µÄÌØÕ÷ÏòÁ¿×ª»¯ÎªÉùѧģÐ͵÷֣¬Óë´Ëͬʱ£¬ÓïÑÔÄ£ÐÍ£¨×ÔÈ»ÓïÑÔ´¦ÀíÖÐÀàËÆn-gramºÍRNNµÈÄ£ÐÍ£©»áµÃµ½Ò»¸öÓïÑÔÄ£Ð͵÷֣¬×îºó½âÂëËÑË÷½×¶Î»áÕë¶ÔÉùѧģÐ͵÷ֺÍÓïÑÔÄ£Ð͵÷ֽøÐÐ×ۺϣ¬½«µÃ·Ö×î¸ßµÄ´ÊÐòÁÐ×÷Ϊ×îºóµÄʶ±ð½á¹¹¡£ÒÔÉϱãÊÇÓïÒôʶ±ðµÄÒ»°ãÔÀí¡£
ÒòΪÓïÒôʶ±ðÏà½ÏÓÚÒ»°ãµÄ×ÔÈ»ÓïÑÔ´¦ÀíÈÎÎñµÄÌØÊâÖ®´¦¾ÍÔÚÓÚÉùѧģÐÍ£¬ËùÒÔÓïÒôʶ±ðµÄ¹Ø¼üÒ²¾ÍÊÇÐźÅÓë´¦Àí¼¼ÊõºÍÉùѧģÐͲ¿·Ö¡£ÔÚÉî¶ÈѧϰÐËÆðÓ¦Óõ½ÓïÒôʶ±ðÁìÓò֮ǰ£¬ÉùѧģÐ;ÍÒѾÓÐÁ˷dz£³ÉÊìµÄÄ£ÐÍÌåϵ£¬²¢ÇÒÒ²ÓÐÁ˱»³É¹¦Ó¦Óõ½Êµ¼ÊϵͳÖеݸÀý¡£±ÈÈç˵¾µäµÄ¸ß˹»ìºÏÄ£ÐÍ£¨GMM£©ºÍÒþÂí¶û¿É·òÄ£ÐÍ£¨HMM£©µÈ¡£Éñ¾ÍøÂçºÍÉî¶ÈѧϰÐËÆðÖ®ºó£¬Ñ»·Éñ¾ÍøÂç¡¢LSTM¡¢±àÂë-½âÂë¿ò¼Ü¡¢×¢ÒâÁ¦»úÖƵȻùÓÚÉî¶ÈѧϰµÄÉùѧģÐͽ«´ËÇ°¸÷Ïî»ùÓÚ´«Í³ÉùѧģÐ͵Äʶ±ð°¸Àý´íÎóÂʽµµÍÁËÒ»¸ölevel£¬ËùÒÔ»ùÓÚÉî¶ÈѧϰµÄÓïÑÔʶ±ð¼¼ÊõÒ²ÕýÔÚÖð½¥³ÉΪÓïÒôʶ±ðÁìÓòµÄºËÐļ¼Êõ¡£
ÓïÑÔʶ±ð·¢Õ¹ÖÁ½ñ£¬ÎÞÂÛÊÇ»ùÓÚ´«Í³ÉùѧģÐ͵ÄÓïÒôʶ±ðϵͳ»¹ÊÇ»ùÓÚÉî¶ÈѧϰµÄʶ±ðϵͳ£¬ÓïÒôʶ±ðµÄ¸÷¸öÄ£¿é¶¼ÊÇ·Ö±ðÓÅ»¯µÄ¡£µ«ÊÇÓïÒô±¾ÖÊÉÏÊÇÒ»¸öÐòÁÐʶ±ðÎÊÌ⣬Èç¹ûÄ£ÐÍÖеÄËùÓÐ×é¼þÄܹ»ÁªºÏÓÅ»¯£¬ºÜ¿ÉÄÜ»á»ñÈ¡¸üºÃµÄʶ±ð׼ȷ¶È£¬Òò¶ø¶Ëµ½¶ËµÄ×Ô¶¯ÓïÒôʶ±ðÊÇδÀ´ÓïÒôʶ±ðµÄÒ»¸ö×îÖØÒªµÄ·¢Õ¹·½Ïò¡£
2. ÐźŴ¦ÀíÓëÌØÕ÷ÌáÈ¡
ÒòΪÉù²¨ÊÇÒ»ÖÖÐźţ¬¾ßÌåÎÒÃÇ¿ÉÒÔ³Æ֮ΪÒôƵÐźš£ÔʼµÄÒôƵÐźÅͨ³£»áÓÉÓÚÈËÀà·¢ÉùÆ÷¹Ù»òÕßÓïÒô²É¼¯É豸Ëù´øÀ´µÄ¾²ÒôƬ¶Î¡¢»ìµþ¡¢ÔëÉù¡¢¸ß´Îг²¨Ê§ÕæµÈÒòËØ£¬Ò»¶¨³Ì¶ÈÉÏ»á¶ÔÓïÒôÐźÅÖÊÁ¿²úÉúÓ°Ïì¡£ËùÒÔÔÚÕýʽʹÓÃÉùѧģÐͽøÐÐÓïÒôʶ±ð֮ǰ£¬ÎÒÃDZØÐë¶ÔÒôƵÐźŽøÐÐÔ¤´¦ÀíºÍÌØÕ÷ÌáÈ¡¡£
×î³õʼµÄÔ¤´¦Àí¹¤×÷¾ÍÊǾ²ÒôÇгý£¬Ò²½Ð×öÓïÒô¼¤»î¼ì²â£¨Voice Activity Detection£¬VAD£©»òÕßÓïÒô±ß½ç¼ì²â¡£Ä¿µÄÊÇ´ÓÒôƵÐźÅÁ÷Àïʶ±ðºÍÏû³ý³¤Ê±¼äµÄ¾²ÒôƬ¶Î£¬ÔÚ½ØÈ¡³öÀ´µÄÓÐЧƬ¶ÎÉϽøÐкóÐø´¦Àí»áºÜ´ó³Ì¶ÈÉϽµµÍ¾²ÒôƬ¶Î´øÀ´µÄ¸ÉÈÅ¡£³ý´ËÖ®Í⣬»¹ÓÐÐí¶àÆäËûµÄÒôƵ´¦Àí¼¼Êõ£¬´ó¼Ò¿ÉÒÔÕÒÀ´ÐźŴ¦ÀíÏà¹ØµÄ×ÊÁϽøÐÐÔĶÁ¡£
È»ºó¾ÍÊÇÌØÕ÷ÌáÈ¡¹¤×÷¡£ÒôƵÐźÅÖÐͨ³£°üº¬·Ç³£·á¸»µÄÌØÕ÷²ÎÊý£¬²»Í¬µÄÌØÕ÷ÏòÁ¿±íÕ÷×Ų»Í¬µÄÉùѧÒâÒ壬´ÓÒôƵÐźÅÖÐÑ¡ÔñÓÐЧµÄÒôƵ±íÕ÷µÄ¹ý³Ì¾ÍÊÇÓïÒôÌØÕ÷ÌáÈ¡¡£³£ÓõÄÓïÒôÌØÕ÷°üÀ¨ÏßÐÔÔ¤²âµ¹Æ×ϵÊý£¨LPCC£©ºÍ÷¶ûƵÂʵ¹Æ×ϵÊý£¨MFCC£©£»ÆäÖÐLPCCÌØÕ÷ÊǸù¾ÝÉù¹ÜÄ£Ðͽ¨Á¢µÄÌØÕ÷²ÎÊý£¬ÊǶÔÉùµÀÏìÓ¦µÄÌØÕ÷±íÕ÷£»¶øMFCCÌØÕ÷ÊÇ»ùÓÚÈ˵ÄÌý¾õÌØÕ÷ÌáÈ¡³öÀ´µÄÌØÕ÷²ÎÊý£¬ÊÇÈ˶úÌý¾õµÄÌØÕ÷±íÕ÷¡£ËùÒÔ£¬ÔÚ¶ÔÒôƵÐźŽøÐÐÌØÕ÷Ìáȡʱͨ³£Ê¹ÓÃMFCCÌØÕ÷¡£
MFCCÌØÕ÷Ö÷ÒªÓÉÓÚÔ¤¼ÓÖØ¡¢·ÖÖ¡¡¢¼Ó´°¡¢¿ìËÙ¸µÁ¢Ò¶±ä»»£¨FFT£©¡¢Ã·¶ûÂ˲¨Æ÷×é¡¢ÀëÉ¢ÓàÏұ任Õ⼸²¿·Ö×é³É£¬ÆäÖÐFFTºÍ÷¶ûÂ˲¨Æ÷×éÊÇMFCC×îÖØÒªµÄ²¿·Ö¡£Ò»¸öÍêÕûµÄMFCCËã·¨°üÀ¨ÒÔϼ¸¸ö²½Ö裺
£¨1£©¿ìËÙ¸µÁ¢Ò¶±ä»»£¨FFT£© £¨2£©Ã·¶ûƵÂʳ߶Èת»» £¨3£©ÅäÖÃÈý½ÇÐÎÂ˲¨Æ÷×é²¢¼ÆËãÿһ¸öÈý½ÇÂ˲¨Æ÷¶ÔÐźŷù¶ÈÆ×Â˲¨ºóµÄÊä³ö £¨4£©¶ÔËùÓÐÂ˲¨Æ÷Êä³ö×÷¶ÔÊýÔËË㣬ÔÙ½øÒ»²½×öÀëÉ¢ÓàÏұ任£¨DTC£©£¬¼´¿ÉµÃµ½MFCC
ʵ¼ÊµÄÓïÒôÑо¿ÖУ¬Ò²²»ÐèÒªÎÒÃÇÔÙ´ÓÍ·¹¹ÔìÒ»¸öMFCCÌØÕ÷ÌáÈ¡·½·¨£¬PythonΪÎÒÃÇÌṩÁËÒ»¸ö pyaudio ºÍ librosa µÈÓïÒô´¦Àí¹¤×÷¿â£¬¿ÉÒÔÖ±½Óµ÷ÓÃMFCCËã·¨µÄÏà¹ØÄ£¿é¿ìËÙʵÏÖÒôƵԤ´¦Àí¹¤×÷¡£
¹ýÈ¥ÔÚÓïÒôʶ±ðÉÏËùÈ¡µÃµÄ³É¹ûÖ¤Ã÷MFCCÊÇÒ»ÖÖÐÐÖ®ÓÐЧµÄÌØÕ÷ÌáÈ¡·½·¨¡£µ«Ëæ×ÅÉî¶ÈѧϰµÄ·¢Õ¹£¬ÊÜÏ޵IJ£¶û×ÈÂü»ú£¨RBM£©¡¢¾í»ýÉñ¾ÍøÂ磨CNN£©¡¢CNN-LSTM-DNN£¨CLDNN£©µÈÉî¶ÈÉñ¾ÍøÂçÄ£ÐÍ×÷Ϊһ¸öÖ±½ÓѧϰÂ˲¨Æ÷´úÌæ÷¶ûÂ˲¨Æ÷×é±»ÓÃÓÚ×Ô¶¯Ñ§Ï°µÄÓïÒôÌØÕ÷ÌáÈ¡ÖУ¬²¢ÇÒÈ¡µÃºÜºÃµÄЧ¹û¡£
3. ´«Í³ÉùѧģÐÍ--GMM
ÔÚ¾¹ýÓïÒôÌØÕ÷ÌáÈ¡Ö®ºó£¬ÎÒÃǾͿÉÒÔ½«ÕâЩÒôƵÌØÕ÷½øÐнøÒ»²½µÄ´¦Àí£¬ÕâÊÇΪÁËÕÒµ½ÓïÒôÀ´×Ôij¸öÉùѧ·ûºÅ£¨ÒôËØ£©µÄ¸ÅÂÊ¡£ÕâÖÖͨ¹ýÒôƵÌØÕ÷ÕÒ¸ÅÂʵÄÄ£Ð;ͳÆΪÉùѧģÐÍ¡£ÔÚÉî¶ÈѧϰÐËÆð֮ǰ£¬»ìºÏ¸ß˹ģÐÍ£¨GMM£©ºÍÒþÂí¶û¿É·òÄ£ÐÍ£¨HMM£©Ò»Ö±×÷Ϊ·Ç³£ÓÐЧµÄÉùѧģÐͶø±»¹ã·ºÊ¹Ó㬵±È»¼´Ê¹ÔÚÉî¶Èѧϰ¸æËß·¢Õ¹µÄ½ñÌ죬ÕâЩ´«Í³µÄÉùѧģÐÍÔÚÓïÒôʶ±ðÁìÓòÈÔÈ»ÓÐ×Åһϯ֮µØ¡£
3.1 »ìºÏ¸ß˹ģÐÍ
Ëùν»ìºÏ¸ß˹ģÐÍ£¨Gaussian Mixture Model£¬GMM£©£¬¾ÍÊÇÓûìºÏµÄ¸ß˹Ëæ»ú±äÁ¿µÄ·Ö²¼À´ÄâºÏѵÁ·Êý¾Ý£¨ÒôƵÌØÕ÷£©Ê±ÐγɵÄÄ£ÐÍ¡£ÔʼµÄÒôƵÊý¾Ý¾¹ý¶Ìʱ¸µÀïÒ¶±ä»»»òÕßÈ¡µ¹Æ׺ó»á±ä³ÉÌØÕ÷ÐòÁУ¬ÔÚºöÂÔʱÐòÐÅÏ¢µÄÌõ¼þÏ£¬ÕâÖÖÐòÁзdz£ÊÊÓÃÓÚʹÓÃGMM½øÐн¨Ä£¡£
Èç¹ûÒ»¸öÁ¬ÐøËæ»ú±äÁ¿·þ´Ó¸ß˹»ìºÏ·Ö²¼£¨ÉÏͼ£©£¬Æä¸ÅÂÊÃܶȺ¯ÊýÐÎʽΪ£º
ÔÚʵ¼ÊµÄGMMѵÁ·ÖУ¬Í¨³£²ÉÓÃEMËã·¨À´½øÐеü´úÓÅ»¯£¬ÒÔÈ¡GMMÖеļÓȨϵÊý¼°¸÷¸ö¸ß˹º¯ÊýµÄ¾ùÖµÓë·½²îµÈ²ÎÊý¡£
£¨2£©ÒþÂí¶û¿É·òÄ£ÐÍ--HMM
GMM×÷ΪһÖÖ»ùÓÚ¸µÀïҶƵÆ×ÓïÒôÌØÕ÷µÄͳ¼ÆÄ£ÐÍ£¬ÔÚ´«Í³ÓïÒôʶ±ðϵͳµÄÉùѧģÐÍÖз¢»ÓÁËÖØÒªµÄ×÷Óá£ÆäÁÓÊÆÔÚÓÚ²»ÄÜ¿¼ÂÇÓïÒô˳ÐòÐÅÏ¢£¬¸ß˹»ìºÏ·Ö²¼Ò²ÄÑÒÔÄâºÏ·ÇÏßÐÔ»ò½üËÆ·ÇÏßÐÔµÄÊý¾ÝÌØÕ÷¡£ËùÒÔ£¬µ±×´Ì¬Õâ¸ö¸ÅÄîÒýÈëµ½ÉùѧģÐ͵Äʱºò£¬¾ÍÓÐÁËÒ»ÖÖеÄÉùѧģÐÍ--ÒþÂí¶û¿É·òÄ£ÐÍ£¨Hidden Markov Model£¬HMM£©¡£
ÔÚËæ»ú¹ý³ÌÁìÓò£¬Âí¶û¿É·ò¹ý³ÌºÍÂí¶û¿É·òÁ´ÏòÀ´ÓÐ×Åһϯ֮µØ¡£µ±Ò»¸öÂí¶û¿É·ò¹ý³Ìº¬ÓÐÒþº¬Î´Öª²ÎÊýʱ£¬ÕâÑùµÄÄ£Ð;ͳÆ֮ΪÒþÂí¶û¿É·òÄ£ÐÍ¡£HMMµÄºËÐĸÅÄî¾ÍÊÇ״̬£¬×´Ì¬±¾Éí×÷Ϊһ¸öÀëÉ¢Ëæ»ú±äÁ¿£¬Âí¶û¿É·òÁ´µÄÿһ¸ö״̬É϶¼Ôö¼ÓÁ˲»È·¶¨ÐÔ»òÕßͳ¼Æ·Ö²¼Ê¹µÃHMM³ÉΪÁËÒ»ÖÖË«Ëæ»ú¹ý³Ì¡£
HMMµÄÖ÷ÒªÄÚÈÝ°üÀ¨²ÎÊýÌØÕ÷¡¢·ÂÕæ·½·¨¡¢²ÎÊýµÄ¼«´óËÆÈ»¹À¼Æ¡¢EM¹À¼ÆËã·¨ÒÔ¼°Î¬ÌرÈ״̬½âÂëËã·¨µÈϸ½Ú֪ʶ£¨±ÊÕßÔÚÊÖ¶¯ÊµÏÖ»úÆ÷ѧϰË㷨ϵÁÐÖÐÏêϸ½éÉÜ£¬±¾Æª×÷Ϊ×ÛÊöÕâÀï²»×öÏêϸµÄÕ¹¿ª£©¡£
4. »ùÓÚÉî¶ÈѧϰµÄÉùѧģÐÍ
Ò»Ìáµ½Éñ¾ÍøÂçºÍÉî¶ÈѧϰÔÚÓïÒôʶ±ðÁìÓòµÄÓ¦Ó㬿ÉÄÜÎÒÃǵĵÚÒ»·´Ó¦¾ÍÊÇÑ»·Éñ¾ÍøÂçRNNÄ£ÐÍÒÔ¼°³¤¶ÌÆÚ¼ÇÒäÍøÂçLSTMµÈµÈ¡£Êµ¼ÊÉÏ£¬ÔÚÓïÒôʶ±ð·¢Õ¹µÄÇ°ÆÚ£¬¾ÍÓкܶཫÉñ¾ÍøÂçÓ¦ÓÃÓÚÓïÒôʶ±ðºÍÉùѧģÐ͵ÄÓ¦ÓÃÁË¡£
×îÔçÓÃÓÚÉùѧ½¨Ä£µÄÉñ¾ÍøÂç¾ÍÊÇ×îÆÕͨµÄÉî¶ÈÉñ¾ÍøÂ磨DNN£©£¬GMM µÈ´«Í³µÄÉùѧģÐÍ´æÔÚÒôƵÐźűíÕ÷µÄµÍЧÎÊÌ⣬µ« DNN ¿ÉÒÔÔÚÒ»¶¨³Ì¶ÈÉϽâ¾öÕâÖÖµÍЧ±íÕ÷¡£µ«ÔÚʵ¼Ê½¨Ä£Ê±£¬ÓÉÓÚÒôƵÐźÅÊÇʱÐòÁ¬ÐøÐźţ¬DNN ÔòÊÇÐèÒª¹Ì¶¨´óСµÄÊäÈ룬ËùÒÔÔçÆðʹÓÃDNNÀ´´î½¨ÉùѧģÐÍʱÐèÒªÒ»ÖÖÄܹ»´¦ÀíÓïÒôÐźų¤¶È±ä»¯µÄ·½·¨¡£Ò»ÖÖ½« HMM Ä£ÐÍÓë DNN Ä£ÐͽáºÏÆðÀ´µÄ DNN-HMM »ìºÏϵͳÆľßÓÐЧÐÔ¡£
ÔÚÉÏͼÕâ¸ö¿ò¼ÜÖУ¬HMM ÓÃÀ´ÃèÊöÓïÒôÐźŵĶ¯Ì¬±ä»¯£¬DNN ÔòÊÇÓÃÀ´¹À¼Æ¹Û²ìÌØÕ÷µÄ¸ÅÂÊ¡£ÔÚ¸ø¶¨Éùѧ¹Û²ìÌØÕ÷µÄÌõ¼þÏ£¬ÎÒÃÇ¿ÉÒÔÓà DNN µÄÿ¸öÊä³ö½ÚµãÀ´¹À¼Æ HMM ij¸ö״̬µÄºóÑé¸ÅÂÊ¡£ÓÉÓÚ DNN-HMM ѵÁ·³É±¾²»¸ß¶øÇÒÏà¶Ô½Ï¸ßµÄʶ±ð¸ÅÂÊ£¬ËùÒÔ¼´Ê¹Êǵ½ÏÖÔÚÔÚÓïÒôʶ±ðÁìÓòÈÔÈ»ÊǽÏΪ³£ÓõÄÉùѧģÐÍ¡£
³ýÁË DNN Ö®Í⣬¾³£ÓÃÓÚ¼ÆËã»úÊÓ¾õµÄ CNN Ò²¿ÉÒÔÄÃÀ´¹¹½¨ÓïÒôÉùѧģÐÍ¡£µ±È»£¬CNN Ò²ÊǾ³£»áÓëÆäËûÄ£ÐͽṹʹÓá£CNN ÓÃÓÚÉùѧģÐÍ·½ÃæÖ÷Òª°üÀ¨ TDNN¡¢CNN-DNN¿ò¼Ü¡¢DFCNN¡¢CNN-LSTM-DNN£¨CLDNN£©¿ò¼Ü¡¢CNN-DNN-LSTM£¨CDL£©¿ò¼Ü¡¢Öð²ãÓï¾³À©Õ¹ºÍ×¢Òâ CNN ¿ò¼Ü£¨LACE£©µÈµÈ¡£Õâô¶à»ùÓÚCNNµÄ»ìºÏÄ£ÐÍ¿ò¼Ü¶¼ÔÚÉùѧģÐÍÉÏÈ¡µÃÁ˺ܶà³É¹û£¬ÕâÀï±ÊÕß½öÌôÁ½¸ö½øÐмòµ¥²ûÊö¡£
£¨1£©TDNN ÊÇ×îÔç»ùÓÚ CNN µÄÓïÒôʶ±ð·½·¨£¬TDNN »áÑØƵÂÊÖáºÍʱ¼äÖáͬʱ½øÐоí»ý£¬Òò´ËÄܹ»ÀûÓÿɱ䳤¶ÈµÄÓï¾³ÐÅÏ¢¡£TDNN ÓÃÓÚÓïÒôʶ±ð·ÖΪÁ½ÖÖÇé¿ö£¬µÚÒ»ÖÖÇé¿öÏ£ºÖ»ÓÐTDNN£¬ºÜÄÑÓÃÓÚ´ó´Ê»ãÁ¿Á¬ÐøÐÔÓïÒôʶ±ð£¨LVCSR£©£¬ÔÒòÔÚÓڿɱ䳤¶ÈµÄ±íÊö£¨utterance£©Óë¿É±ä³¤¶ÈµÄÓï¾³ÐÅÏ¢ÊÇÁ½»ØÊ£¬ÔÚ LVCSR ÖÐÐèÒª´¦Àí¿É±ä³¤¶È±íÊöÎÊÌ⣬¶ø TDNN Ö»ÄÜ´¦Àí¿É±ä³¤¶ÈÓï¾³ÐÅÏ¢£»µÚ¶þÖÖÇé¿ö£ºTDNN-HMM »ìºÏÄ£ÐÍ£¬ÓÉÓÚHMMÄܹ»´¦Àí¿É±ä³¤¶È±íÊöÎÊÌ⣬Òò¶ø¸ÃÄ£ÐÍÄܹ»ÓÐЧµØ´¦Àí LVCSR ÎÊÌâ¡£
£¨2£©DFCNN µÄÈ«³Æ½Ð×öÈ«ÐòÁоí»ýÉñ¾ÍøÂ磨deep fully convolutional neural network£©£¬ÊÇÓɹúÄÚÓïÒôʶ±ðÁìÓòµÄÇ̳þ¿Æ´óѶ·ÉÓÚ2016ÄêÌá³öµÄÒ»ÖÖÓïÒôʶ±ð¿ò¼Ü¡£DFCNN ÏȶÔʱÓòµÄÓïÒôÐźŽøÐиµÀïÒ¶±ä»»µÃµ½ÓïÒôµÄÓïÆ×ͼ£¬DFCNN Ö±½Ó½«Ò»¾äÓïÒôת»¯³ÉÒ»ÕÅͼÏñ×÷ΪÊäÈ룬Êä³öµ¥ÔªÔòÖ±½ÓÓë×îÖÕµÄʶ±ð½á¹û£¨±ÈÈçÒô½Ú»òÕߺº×Ö£©Ïà¶ÔÓ¦¡£DFCNN µÄ½á¹¹ÖаÑʱ¼äºÍƵÂÊ×÷ΪͼÏñµÄÁ½¸öά¶È£¬Í¨¹ý½Ï¶àµÄ¾í»ý²ãºÍ³Ø»¯£¨pooling£©²ãµÄ×éºÏ£¬ÊµÏÖ¶ÔÕû¾äÓïÒôµÄ½¨Ä£¡£DFCNN µÄÔÀíÊÇ°ÑÓïÆ×ͼ¿´×÷´øÓÐÌض¨Ä£Ê½µÄͼÏñ£¬¶øÓоÑéµÄÓïÒôѧר¼ÒÄܹ»´ÓÖп´³öÀïÃæ˵µÄÄÚÈÝ¡£
£¨3£©×îºó¾ÍÊÇÑ»·Éñ¾ÍøÂç RNN£¬ÆäÖиü¶àÊÇ LSTM ÍøÂç¡£ÒôƵÐźžßÓÐÃ÷ÏÔµÄÐͬ·¢ÒôÏÖÏó£¬Òò´Ë±ØÐ뿼Âdz¤Ê±Ïà¹ØÐÔ¡£ÓÉÓÚÑ»·Éñ¾ÍøÂçRNN¾ßÓиüÇ¿µÄ³¤Ê±½¨Ä£ÄÜÁ¦£¬Ê¹µÃ RNN Ò²Öð½¥Ìæ´ú DNN ºÍ CNN ³ÉΪÓïÒôʶ±ðÖ÷Á÷µÄ½¨Ä£·½°¸¡£±ÈÈç˵³£¼ûµÄ»ùÓÚ seq2seq µÄ±àÂë-½âÂë¿ò¼Ü¾ÍÊÇÒ»ÖÖ»ùÓÚ RNN µÄÄ£ÐÍ¡£¹ØÓÚ RNN ÔÚÓïÒôʶ±ðºÍÉùѧģÐÍÖеÄÓ¦ÓñÊÕß²»×ö¹ý¶à½âÊÍ£¬ºóÐøÓÐÓ¦ÓÃÐÔµÄÍÆÎÄÔÙ×öÏêϸ½éÉÜ¡£
³¤ÆÚµÄÑо¿ºÍʵ¼ùÖ¤Ã÷£º»ùÓÚÉî¶ÈѧϰµÄÉùѧģÐÍÒª±È´«Í³µÄ»ùÓÚdz²ãÄ£Ð͵ÄÉùѧģÐ͸üÊʺÏÓïÒô´¦ÀíÈÎÎñ¡£ÓïÒôʶ±ðµÄÓ¦Óû·¾³³£³£±È½Ï¸´ÔÓ£¬Ñ¡ÔñÄܹ»Ó¦¶Ô¸÷ÖÖÇé¿öµÄÄ£Ðͽ¨Ä£ÉùѧģÐÍÊǹ¤Òµ½ç¼°Ñ§Êõ½ç³£ÓõĽ¨Ä£·½Ê½¡£µ«µ¥Ò»Ä£ÐͶ¼ÓоÖÏÞÐÔ¡£HMMÄܹ»´¦Àí¿É±ä³¤¶ÈµÄ±íÊö£¬CNNÄܹ»´¦Àí¿É±äÉùµÀ£¬RNN/CNNÄܹ»´¦Àí¿É±äÓï¾³ÐÅÏ¢¡£ÉùѧģÐͽ¨Ä£ÖУ¬»ìºÏÄ£ÐÍÓÉÓÚÄܹ»½áºÏ¸÷¸öÄ£Ð͵ÄÓÅÊÆ£¬ÊÇÄ¿Ç°ÄËÖÁ½ñºóÒ»¶Îʱ¼äÄÚÉùѧ½¨Ä£µÄÖ÷Á÷·½Ê½¡£
5. ¶Ëµ½¶ËµÄÓïÒôʶ±ðϵͳ
ÎÞÂÛÊÇ GMM ºÍ HMM ÕâÑùµÄ´«Í³ÉùѧģÐÍ£¬»¹ÊÇ»ùÓÚÉî¶ÈѧϰµÄÉùѧģÐÍ£¬ËüÃǶÔÓÚÕû¸öÓïÒôʶ±ðϵͳ¶¼ÊÇ·Ö¿ªÓÅ»¯µÄ£¬µ«ÊÇÓïÒôʶ±ð±¾ÖÊÉÏÊÇÒ»¸öÐòÁÐʶ±ðÎÊÌ⣬Èç¹ûÄ£ÐÍÖеÄËùÓÐ×é¼þ¶¼Äܹ»ÁªºÏÓÅ»¯£¬ºÜ¿ÉÄÜ»á»ñÈ¡¸üºÃµÄʶ±ð׼ȷ¶È£¬ËùÒÔÎÒÃÇÐèÒªÒ»Öֶ˵½¶Ë£¨End2End£©µÄÓïÒôʶ±ð´¦Àíϵͳ¡£
´«Í³µÄÓïÒôʶ±ðϵͳÖеÄÉùѧģÐÍѵÁ·£º
´«Í³µÄÓïÒôʶ±ðϵͳÖеÄÓïÑÔÄ£ÐÍѵÁ·£º
¹È¸èµÄ Listen-Attend-Spell (LAS) ¶Ëµ½¶ËÓïÒôʶ±ðϵͳ£º
¹ØÓڶ˵½¶ËµÄÓïÒôʶ±ðϵͳ£¬±ÊÕß×öµÄµ÷Ñг̶ÈÓÐÏÞ£¬¸ü¶àµÄÄÚÈÝÐèÒªºóÐø²»¶ÏµÄѧϰºÍʵ¼ù£¬¹ØÓÚÕâƪÓïÒôʶ±ðµÄ×ÛÊöÔÝʱдµ½ÕâÀï¡£
ÃâÔðÉùÃ÷£º ±¾ÎÄÕÂת×ÔÆäËüƽ̨£¬²¢²»´ú±í±¾Õ¾¹Ûµã¼°Á¢³¡¡£ÈôÓÐÇÖȨ»òÒìÒ飬ÇëÁªÏµÎÒÃÇɾ³ý¡£Ð»Ð»£¡ |
΢ÐÅ×Éѯ¿Í·þ