语言是人类获得信息的主要来源之一,是人与外界交流信息的最方便、最有 效、最自然的工具。随着计算机科学与应用的发展,出现了计算机语音学 (Computer Phonetics)。人们对计算机语音的研究主要有以下几个方面: •语音编码(Speech Coding); •语音合成(Speech Synthsis); •语音识别(Speech Recognition); •话者识别(Speaker Recognition)或 话者确认(Speaker Verification)。 语音识别(SR)就是让计算机听懂人说话,它是发展人机声通信和新一代智能 计算机的重要组成部分。它有几种分类方法:按被识别人的范围可分为特定人 (Speaker Dependent)和非特定人(Speaker Independent)语音识别;按词汇量的大小 可分为小词汇量(Small Vocabulary)和大词汇量(Large Vocabulary)语音识别;按说 话方式可分为孤立词(Isolated Word)和连续语音或连接词(Continuous Speech or Connected Word)语音识别。它们的难易程度如表1.1所示(E:易, D:难)。 表1.1 语音识别难易评价表 适应对象词汇量识别方式难易评价说明 孤立词EEE 较易 小词汇量 连续语音EED 较难 孤立词EDE 较难 特定人 大词汇量 连续语音EDD 很难 孤立词DEE 较难 小词汇量 连续语音DED 很难 孤立词DDE 很难 非特定人 大词汇量 连续语音DDD 极难 §1.1 SR 的早期研究(76 年以前) ...... |