语音搜索引擎如何学习流行语音中引入的新单词,例如“大志网,”并学习和理解单词的不同发音,例如根据地区差异在口语中可能会发现?
谷歌最近发布的专利申请提供了一些提示。
去年4月,Google被授予了一项 搜索引擎的语音界面。我写在 谷歌 声音搜索 patent granted.
较早的专利申请引入了有关语音识别的许多主题,并向我们介绍了诸如语言模型之类的事物,它可以学习新单词和不同的用法。
从那以后,我们’我们实际上在Goog 411上看到了来自Google的语音搜索
新的专利申请更详细地介绍了语音搜索的语言模型如何工作:
自动语言模型更新
由Michael H. Cohen,Shumeet Baluja和Pedro J.Moreno发明
美国专利申请20070233487
2007年10月4日发布
提交日期:2006年4月3日
抽象
一种用于生成语音识别模型的方法,包括访问基线语音识别模型,从搜索查询中获取与最近使用的语言有关的信息,以及基于该信息来修改语音识别模型以修正一部分声音出现的概率。声音的一部分可以包括单词。
另外,一种用于生成语音识别模型的方法,包括:在搜索引擎处从远程设备接收音频记录和基本上表示音频记录的至少一部分的成绩单,将成绩单与音频记录同步,提取一个或多个。从转录本中获取更多字母,并从录音中提取一个或多个字母的关联发音,并在发音词典中生成词典条目。
该专利确实提供了有关如何构建和训练这种语言模型的大量细节。对我来说,最有趣的部分是它如何看待电视新闻广播和它们的成绩单,以学习新单词,定义这些单词的发音,并理解与这些单词相关的文本。
它还讨论了预测性声音搜索,例如您在Google工具栏中的下拉菜单中看到的预测性搜索,这些搜索根据在工具栏搜索框中键入的字母和符号以及空格提供了建议的查询,但此操作会侦听声音的一部分。
专利申请确实使用了术语“Da Shiznet”(原文如此):
但是,当前的语音识别系统不能完全准确地翻译语音。有时,系统会将口语单词转换为与口语单词不对应的文本。当说出的单词是语音识别系统无法访问的语言模型中的单词时,此问题尤其明显。
系统接收到新的口语单词,但由于新的口语单词在语言模型中没有相应的文本定义,因此错误地翻译了该单词。例如,单词“da shiznet”用当前语言表达一种流行的方式来描述“the best.”
但是,语言模型可能不包含此短语,并且系统可能会尝试根据语言模型中的当前单词来翻译该短语。这会导致该短语的翻译不正确“da shiznet”换句话说,例如“dashes net.”
现在我能’记得用类似“da shiznit”定期地。如果Google正在通过听电视来学习新单词和新发音,并通过查看这些节目的成绩单来跟踪广播和广播,那么我’我想知道MTV是否在他们的每日观看时间表上。
时机不错– GOOG-411实验室毕业生.
我想我指出上面的GOOG411网页还为时过早,官方Google 博客帖子说这是一个全新的网站。