编辑“语音识别技术”（章节）

== 语音识别所面临的问题 ==
*就算法模型方面而言
*需要有进一步的突破。目前能看出它的一些明显不足，尤其在中文语音识别方面，语言模型还有待完善，因为语言模型和声学模型正是听写识别的基础，这方面没有突破，语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型，还没有用到以语言学为基础的文法模型，而要使计算机确实理解人类的语言，就必须在这一点上取得进展，这是一个相当艰苦的工作。此外，随着硬件资源的不断发展，一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信，半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。
*就自适应方面而言
*语音识别技术也有待进一步改进。目前，象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练，以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用，大量的训练不仅让用户感到厌烦，而且加大了系统的负担。并且，不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此，必须在自适应方面有进一步的提高，做到不受特定人、口音或者方言的影响，这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的，就声音特征来讲有男音、女音和童音的区别，此外，许多人的发音离标准发音差距甚远，这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征，那可能比提高一二个百分点识别率更重要。事实上，ViaVoice的应用前景也因为这一点打了折扣，只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。
*就强健性方面而言
*语音识别技术需要能排除各种环境因素的影响。目前，对语音识别效果影响最大的就是环境杂音或嗓音，在公共场合，你几乎不可能指望计算机能听懂你的话，来自四面八方的声音让它茫然而不知所措。很显然这极大地限制了语音技术的应用范围，目前，要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行，这对多数用户来说是不现实的。在公共场合中，个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音，如何让语音识别技术也能达成这一点呢？这的确是一个艰巨的任务。 
*此外，带宽问题也可能影响语音的有效传送，在速率低于1000比特/秒的极低比特率下，语音编码的研究将大大有别于正常情况，比如要在某些带宽特别窄的信道上传输语音，以及水声通信、地下通信、战略及保密话音通信等，要在这些情况下实现有效的语音识别，就必须处理声音信号的特殊特征，如因为带宽而延迟或减损等。语音识别技术要进一步应用，就必须在强健性方面有大的突破。
*多语言混合识别以及无限词汇识别方面
*简单地说，目前使用的声学模型和语音模型太过于局限，以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文，或者法文、俄文，计算机就会不知如何反应，而给出一堆不知所云的句子；或者用户偶尔使用了某个专门领域的专业术语，如“信噪比"等，可能也会得到奇怪的反应。这一方面是由于模型的局限，另一方面也受限于硬件资源。随着两方面的技术的进步，将来的语音和声学模型可能会做到将多种语言混合纳入，用户因此就可以不必在语种之间来回切换。此外，对于声学模型的进一步改进，以及以语义学为基础的语言模型的改进，也能帮助用户尽可能少或不受词汇的影响，从而可实行无限词汇识别。
*多语种交流系统的应用
*最终，语音识别是要进一步拓展我们的交流空间，让我们能更加自由地面对这个世界。可以想见，如果语音识别技术在上述几个方面确实取得了突破性进展，那么多语种交流系统的出现就是顺理成章的事情，这将是语音识技术、机器翻译技术以及语音合成技术的完美结合，而如果硬件技术的发展能将这些算法进而固化到更为细小的芯片，比如手持移动设备上，那么个人就可以带着这种设备周游世界而无需担心任何交流的困难，你说出你想表达的意思，手持设备同时识别并将它翻译成对方的语言，然后合成并发送出去；同时接听对方的语言，识别并翻译成已方的语言，合成后朗读给你听，所有这一切几乎都是同时进行的，只是机器充当着主角。
*任何技术的进步都是为了更进一步拓展我们人类的生存和交流空间，以使我们获得更大的自由，就服务于人类而言，这一点显然也是语音识别技术的发展方向，而为了达成这一点，它还需要在上述几个方面取得突破性进展，最终，多语种自由交流系统将带给我们全新的生活空间。