Anonim
语音聊天机器人

(Mr_Mrs_Marcha / shutterstock)

西雅图-您是否正在考虑为您的企业创建语音机器人驱动的应用? 围绕机器人创建的一些指导是常识,如著名的瑞典企业家,播客和Windows平台开发MVP Jessica Engstrom在Microsoft Build上概述的。 例如,不要仅仅因为它是一种很酷的新技术而构建语音机器人,并确保它适合您的业务模型。

但是在很多情况下,语音确实适合。 一个论点是,普通人每分钟输入40个单词,但说150个单词。仅在Microsoft平台上,每周就会发布大约3, 000个新的机器人,而95%的智能手机用户尝试了个人助理。

不过,这并非一帆风顺。 Engstrom提到了微软自己的灾难性语音+ AI实验Tay,该公司在互联网上将其教育为种族主义之后不到一天就投入使用。 她指的是汉堡王(Burger King),后者经营一家旨在触发Google Home的商业广告,但阅读了Wikipedia网页,称该Whopper中含有氰化物。

Azure语音技术措辞上的差异

Engstrom说,在设计语音助手时,应限制可能的答案范围。 不要问开放性问题。 训练语音助手以处理表达问题或命令的多种方式。 甚至编写对话的完整脚本,这对您的机器人来说很有意义。 最后,提供音频帮助,并举例说明用户可以说些什么。

Azure语音技术的新功能

Build主题演讲中的一项重要公告是能够在会议中抄录多方讲话,同时跟踪哪个发言者说了什么。 在单独的会话中,Microsoft语音和语言首席程序经理Aarthy Longino在自定义开发界面中展示了该功能。

Azure语音技术语音概述

在去年的Build上,最大的成功是一个会议“圆锥”,该会议认可了参与者并抄录了每个参与者的讲话。 现在,该锥体(还带有360度摄像头)正在由Microsoft客户在私人预览版中进行测试。 但是还有其他任何人都可以测试转录的设备,包括Roobo Smart Audio Dev Kit,该设备在会议中得到了很好的演示。

您可以在aka.ms/sdsdk-get中找到这些认知服务语音设备。

有关

  • 如何在Windows 10上使用语音识别和听写文本在Windows 10上如何使用语音识别和听写文本
  • 铬上的Microsoft Edge:这是什么意思? 铬上的Microsoft Edge:这是什么意思?
  • Google展示了超快速的“下一代”语音助手Google展示了超快速的“下一代”语音助手

在语音的另一端,至少也是令人印象深刻的是文本到语音(TTS)。 微软语音服务首席项目经理廖钦英(音译)展示了一些新技术的进步,例如听起来非常自然的新神经语音,它是如此的顺畅,以至于会议室中的与会者都为实际的人类读者投票赞成它。

目前,“神经之声”仅适用于9种地区性英语方言,但日语,西班牙语和葡萄牙语仍在使用中。

另一个新功能是为TTS增添情感:代码中的简单关键字可以使所生成的语音听起来愉悦或移情。 这也相反。 实际上,Microsoft的呼叫中心转录技术可以检测到交互何时开始变负。 语音服务将使企业可以在新的“定制语音门户”中使用自己的术语来自定义识别和TTS。 您可以在此帮助页面上阅读有关所有Azure语音服务的信息。