“硅谷新贵”利用GPU革新传统笔录，欲突破语音技术行业难点

会员服务 ·

“硅谷新贵”利用GPU革新传统笔录，欲突破语音技术行业难点

2018 年 5 月 14 日 英伟达NVIDIA中国

位于硅谷的 AISense公司研发出了一款由GPU提供支持的应用程序——Otter，通过捕捉语音-文本交互，为企业客户提供优质的会议记录助手服务。

AISense成立于 2016 年，致力于多人长篇对话的语音识别技术以及说话人识别 (speaker diarization，一种使用机器分辨声音的技术）语言处理领域。

经过两年的努力，AISense实现了环境声音智能技术（Ambient Voice Intelligence technology）专利。它可以支持用户对语音对话进行存储、搜索、共享和分析。

用户可以使用 Otter 滚动浏览由多人清晰标记的文本，也可以选择聆听文本内容。据该公司介绍，该应用程序的文本听写准确率已经超过 90%。

AISense 联合创始人兼首席执行官梁松表示，相比亚马逊Alexa、苹果Siri或谷歌语音助手基于简单指令互动的人机交互，人人交互更难捕捉。而这便是Otter与仅仅能处理单人简短问题或指令的传统语音产品的不同之处。

梁松认为，为了处理人类所有复杂交互和对话中的细微差别，减少因说话口音问题而出错的现象，AISense必须要实现技术升级。

他表示：“这是一项深奥且困难的技术，需要进行非常复杂的监督式学习，并借助成千上万小时的录音来获取大量标记数据。”

梁松是硅谷知名的技术风云人物。他曾担任谷歌地图位置服务的技术组长，负责Blue dot的工作；曾创建公司Alohar Mobile（该公司于2013 年被阿里巴巴收购）。

他新创建的公司AISense正在构建一个半监督式学习系统，无需人类转录便可通过大量的会议数据进行自主学习。

他们的团队可以从美国国家公共电台 (NPR) 广播节目的档案和美国国会图书馆的最高法院会议记录中免费获取数据。能够在线获得如此大规模的训练数据，AISense无疑是幸运的。

Otter团队的合影

接下来，他们利用50 个 NVIDIA Tesla GPU，将海量音频数据和录音为Otter训练算法。梁松说：“作为一家初创公司，我们本来应该在花钱上非常节省。但是，在 GPU 上投入更多资源却是必须要做的。”

AISense认为企业客户可能会将Otter用于会议系统。为此，他们计划推出一个只支持订阅的高级版本，并且已将其部分技术授权给了企业客户。

最近，AISense 和 Zoom 视频通讯公司宣布合作。他们将共同处理大量的语音数据，并利用AISense 的技术来实现机器转录。

截至目前，AISense 已获得超过 1300 万美元的融资。相关投资者包括维港投资、Draper Associates、Slow Ventures、硅谷科技创投、布里奇沃特投资公司、500 Startups以及斯坦福教授 David Cheriton。

登录查看更多

相关内容

语音技术

关注 7078

语音技术包含了很广泛的内涵，涉及语音合成、语音识别、说话人识别、语音增强、语音翻译等等。

打怪升级！2020机器学习工程师技术路线图

专知会员服务

99+阅读 · 2020年6月3日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

AAAI 2020 | 南京大学×滴滴：基于弱监督学习的网约车用户体验提升

专知会员服务

15+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

专知会员服务

32+阅读 · 2020年1月2日

【CAAI 2019】面向智慧教育的学生认知建模与学习路径推荐,中国科技大学教授|陈恩红

专知会员服务

41+阅读 · 2019年12月1日

【白皮书】“物联网+区块链”应用与发展白皮书-2019

专知会员服务

94+阅读 · 2019年11月13日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

专知会员服务

19+阅读 · 2019年11月5日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

50+阅读 · 2019年10月22日

从不温不火到炙手可热：语音识别技术简史

AI100

7+阅读 · 2019年8月21日

2019语音技术报告：语音经济规模将超移动应用

新智元

9+阅读 · 2019年7月23日

全球顶尖科学杂志：阿里AI语音技术超越谷歌，可读懂人类潜藏意图

算法与数学之美

8+阅读 · 2018年12月19日

深度学习工业级部署实践：基于Spark部署Tensorflow深度学习模型

深度学习与NLP

3+阅读 · 2018年10月17日

投资人工智能：自然语言处理得到回报

全球人工智能

3+阅读 · 2018年10月11日

2018 NLP领域持续火爆，厂商挖空心思寻找落地场景

雷锋网

3+阅读 · 2018年9月3日

首发| 这家数据公司又融1000万用AI辅助人工标注服务京东小米

铅笔道

75+阅读 · 2018年6月13日

搜狗推出唇语识别技术提升远场语音交互

智东西

3+阅读 · 2017年12月14日

一文读懂语音识别史

机械鸡

9+阅读 · 2017年10月16日

干货：一文读懂语音识别（附学习资源）

数据分析

3+阅读 · 2017年7月28日

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

End-to-End Multi-speaker Speech Recognition with Transformer

Arxiv

8+阅读 · 2020年2月13日

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Arxiv

5+阅读 · 2019年7月4日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Improved Speech Enhancement with the Wave-U-Net

Arxiv

8+阅读 · 2018年11月27日

Fire SSD: Wide Fire Modules based Single Shot Detector on Edge Device

Arxiv

3+阅读 · 2018年10月16日

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Arxiv

5+阅读 · 2018年9月28日

Speeding-up Object Detection Training for Robotics with FALKON

Arxiv

6+阅读 · 2018年8月27日

CoupleNet: Paying Attention to Couples with Coupled Attention for Relationship Recommendation

Arxiv

4+阅读 · 2018年5月29日

Sentiment Predictability for Stocks

Arxiv

7+阅读 · 2018年1月18日

VIP会员