什么是语音识别

更新时间:2023-07-28

什么是语音识别

语音或说话人识别是机器或程序接收和解释听写或理解和执行语音命令的能力。随着人工智能(AI)和智能助手(如亚马逊的Alexa和苹果的Siri)的兴起,语音识别获得了突出和使用。
语音识别系统让消费者只需与技术交谈即可与技术进行交互,从而实现免提请求、提醒和其他简单任务。语音识别可以使用自动语音识别 (ASR) 软件程序识别和区分语音。某些 ASR 程序要求用户首先训练程序识别其语音,以实现更准确的语音到文本转换。语音识别系统评估语音的频率、口音和语音流。
语音识别
尽管语音识别和语音识别可以互换使用,但它们并不相同,必须进行关键的区分。语音识别识别说话人,而语音识别评估所说的话。

语音识别如何工作?

计算机上的语音识别软件需要将模拟音频转换为数字信号,称为模数转换(A/D)。对于破译信号的计算机,它必须有一个单词或音节的数字数据库,以及将这些数据与信号进行比较的快速过程。语音模式存储在硬盘驱动器上,并在程序运行时加载到内存中。比较器根据A/D转换器的输出检查这些存储的模式 - 这种操作称为模式识别。
实际上,语音识别程序的有效词汇量的大小与安装它的计算机的RAM容量直接相关。与在硬盘驱动器中搜索某些匹配项相比,如果可以将整个词汇加载到 RAM 中,则语音识别程序的运行速度要快很多倍。处理速度至关重要,因为它会影响计算机在 RAM 中搜索匹配项的速度。

为了清晰起见,还必须处理音频,因此某些设备可能会过滤掉背景噪音。在某些语音识别系统中,音频中的某些频率被强调,以便设备可以更好地识别语音。语音识别系统通过两种模型之一分析语音:隐马尔可夫模型和神经网络。隐马尔可夫模型将口语单词分解为音素,而递归神经网络使用前面步骤的输出来影响当前步骤的输入。

随着语音识别技术用途的增长和越来越多的用户与之交互,实施语音识别软件的组织将有更多的数据和信息输入语音识别系统的神经网络。这提高了语音识别产品的功能和准确性。

智能手机的普及为将语音识别技术添加到消费者口袋中提供了机会,而家用设备(如Google Home和Amazon Echo)则将语音识别技术带入了客厅和厨房。

语音识别用途

随着人工智能、机器学习和消费者接受度的成熟,语音识别的使用迅速增长。如何使用语音识别的示例包括:
  • 虚拟助手。 Siri,Alexa和Google虚拟助手都实现了语音识别软件来与用户进行交互。消费者使用语音识别技术的方式因产品而异。但他们可以使用它来将语音转录为文本,设置提醒,搜索互联网并回答简单的问题和请求,例如播放音乐或共享天气或交通信息。
  • 智能设备。用户可以使用语音识别软件控制他们的智能家居,包括智能恒温器和智能扬声器。
  • 自动电话系统。组织在其电话系统中使用语音识别,通过说出特定号码将呼叫者定向到相应的部门。
  • 会议。语音识别用于为说话者提供实时字幕,以便其他人可以实时跟随所说的文本。
  • 蓝牙。现代汽车中的蓝牙系统支持语音识别,以帮助驾驶员将视线集中在道路上。驾驶员可以使用语音识别来执行命令,例如“呼叫我的办公室”。
  • 听写和语音识别软件。这些工具可以帮助用户听写和转录文档,而无需使用物理键盘或鼠标输入文本。
  • 政府。 国家安全局使用可追溯到2006年的语音识别系统来识别恐怖分子和间谍或验证任何说话者的音频。

语音识别优缺点

语音识别提供了许多好处:
  • 消费者可以通过直接与语音助手或其他语音识别技术交谈来进行多任务处理。
  • 视力有问题的用户仍然可以与其设备进行交互。
  • 机器学习和复杂的算法帮助语音识别技术快速将口语转换为书面文本。
  • 这项技术可以比某些用户打字更快地捕获语音。这使得记笔记或设置提醒等任务更快、更方便。
但是,该技术的一些缺点包括:
  • 背景噪音会产生错误输入。
  • 虽然准确率正在提高,但所有语音识别系统和程序都会出错。
  • 听起来相似但拼写不同且含义不同的单词存在问题 - 例如,听到和这里。使用存储的上下文信息可以在很大程度上解决此问题。但是,这需要更多的 RAM 和更快的处理器。

语音识别的历史

语音识别技术在过去五十年中呈指数级增长。追溯到1976年,计算机只能理解1000多个单词。随着IBM继续开发语音识别技术,这一总数在20世纪80年代跃升至约20000人。
1952年,贝尔实验室发明了AUDREY——自动数字识别器——它只能理解零到九的数字。20世纪70年代初至中期,美国国防部开始为语音识别系统的开发做出贡献,资助了国防高级研究计划局的语音理解研究。由卡内基梅隆大学开发的Harpy是当时的另一种语音识别系统,最多可以识别1011个单词。
Dragon公司于1990年推出了第一款面向消费者的扬声器识别产品Dragon Dictate。这后来被Nuance Communications的Dragon NaturallySpeaking取代。1997年,IBM推出了IBM ViaVoice,这是第一款可以识别连续语音的语音识别产品。
苹果公司在2011年推出了Siri,它仍然是一款出色的语音识别助手。2016年,谷歌推出了手机谷歌助手。语音识别系统可以在手机、智能扬声器、笔记本电脑、台式机和平板电脑等设备中找到,也可以在Dragon Professional和Philips SpeechLive等软件中找到。
在过去的十年里,其他几位技术领导者开发了更复杂的语音识别软件,例如亚马逊Alexa。亚马逊Alexa于2014年发布,也是一款响应语音命令的个人助理。目前,语音识别软件可用于Windows、Mac、Android、iOS和Windows手机设备。

下一篇

SBC是什么-企业为什么需要SB以及应用场景

通信百科

SBC是什么-企业为什么需要SB以及应用场景

sbc一种NAT穿透的方式。SBC可确保VoIP 安全,又可提供媒体代理服务器的套件。SBC架构于IMS网络之上,可作为IMS网络的SIP和RTSP的 Proxy Server,所有的SIP与RTSP讯息都会透过SBC来处理,SBC更具备N... ...

相关内容

什么是SPI?

什么是SPI?

SPI是串行外设接口( Serial Peripheral nterface )......

通信百科

2023-11-25

什么是骨传导耳机?

什么是骨传导耳机?

骨传导耳机(有时称为“骨耳机”)是通过用户头骨中的骨骼而不是耳道传输声波的耳机。......

通信百科

2023-11-25

大数据工程师

大数据工程师

大数据工程师是信息技术 (IT) 专业人员,负责设计、构建、测试和维护处理大型数......

通信百科

2023-11-24