“硅谷新贵”利用GPU革新传统笔录,欲突破语音技术行业难点

2018 年 5 月 14 日 英伟达NVIDIA中国

位于硅谷的 AISense公司研发出了一款由GPU提供支持的应用程序——Otter,通过捕捉语音-文本交互,为企业客户提供优质的会议记录助手服务。


AISense成立于 2016 年,致力于多人长篇对话的语音识别技术以及说话人识别 (speaker diarization,一种使用机器分辨声音的技术)语言处理领域。


经过两年的努力,AISense实现了环境声音智能技术(Ambient Voice Intelligence technology)专利。它可以支持用户对语音对话进行存储、搜索、共享和分析。



用户可以使用 Otter 滚动浏览由多人清晰标记的文本,也可以选择聆听文本内容。据该公司介绍,该应用程序的文本听写准确率已经超过 90%。


AISense 联合创始人兼首席执行官梁松表示,相比亚马逊Alexa、苹果Siri或谷歌语音助手基于简单指令互动的人机交互,人人交互更难捕捉。而这便是Otter与仅仅能处理单人简短问题或指令的传统语音产品的不同之处。


梁松认为,为了处理人类所有复杂交互和对话中的细微差别,减少因说话口音问题而出错的现象,AISense必须要实现技术升级。


他表示:“这是一项深奥且困难的技术,需要进行非常复杂的监督式学习,并借助成千上万小时的录音来获取大量标记数据。”


梁松是硅谷知名的技术风云人物。他曾担任谷歌地图位置服务的技术组长,负责Blue dot的工作;曾创建公司Alohar Mobile(该公司于2013 年被阿里巴巴收购)。


他新创建的公司AISense正在构建一个半监督式学习系统,无需人类转录便可通过大量的会议数据进行自主学习。


他们的团队可以从美国国家公共电台 (NPR) 广播节目的档案和美国国会图书馆的最高法院会议记录中免费获取数据。能够在线获得如此大规模的训练数据,AISense无疑是幸运的。


Otter团队的合影


接下来,他们利用50 个 NVIDIA Tesla GPU,将海量音频数据和录音为Otter训练算法。梁松说:“作为一家初创公司,我们本来应该在花钱上非常节省。但是,在 GPU 上投入更多资源却是必须要做的。”


AISense认为企业客户可能会将Otter用于会议系统。为此,他们计划推出一个只支持订阅的高级版本,并且已将其部分技术授权给了企业客户。


最近,AISense 和 Zoom 视频通讯公司宣布合作。他们将共同处理大量的语音数据,并利用AISense 的技术来实现机器转录。


截至目前,AISense 已获得超过 1300 万美元的融资。相关投资者包括维港投资、Draper Associates、Slow Ventures、硅谷科技创投、布里奇沃特投资公司、500 Startups以及斯坦福教授 David Cheriton。



登录查看更多
1

相关内容

语音技术包含了很广泛的内涵,涉及语音合成、语音识别、说话人识别、语音增强、语音翻译等等。
打怪升级!2020机器学习工程师技术路线图
专知会员服务
99+阅读 · 2020年6月3日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
94+阅读 · 2019年11月13日
投资人工智能:自然语言处理得到回报
全球人工智能
3+阅读 · 2018年10月11日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
干货 :一文读懂语音识别(附学习资源)
数据分析
3+阅读 · 2017年7月28日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年1月18日
VIP会员
相关VIP内容
打怪升级!2020机器学习工程师技术路线图
专知会员服务
99+阅读 · 2020年6月3日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
94+阅读 · 2019年11月13日
相关资讯
投资人工智能:自然语言处理得到回报
全球人工智能
3+阅读 · 2018年10月11日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
干货 :一文读懂语音识别(附学习资源)
数据分析
3+阅读 · 2017年7月28日
Top
微信扫码咨询专知VIP会员