位于硅谷的 AISense公司研发出了一款由GPU提供支持的应用程序——Otter,通过捕捉语音-文本交互,为企业客户提供优质的会议记录助手服务。
AISense成立于 2016 年,致力于多人长篇对话的语音识别技术以及说话人识别 (speaker diarization,一种使用机器分辨声音的技术)语言处理领域。
经过两年的努力,AISense实现了环境声音智能技术(Ambient Voice Intelligence technology)专利。它可以支持用户对语音对话进行存储、搜索、共享和分析。
用户可以使用 Otter 滚动浏览由多人清晰标记的文本,也可以选择聆听文本内容。据该公司介绍,该应用程序的文本听写准确率已经超过 90%。
AISense 联合创始人兼首席执行官梁松表示,相比亚马逊Alexa、苹果Siri或谷歌语音助手基于简单指令互动的人机交互,人人交互更难捕捉。而这便是Otter与仅仅能处理单人简短问题或指令的传统语音产品的不同之处。
梁松认为,为了处理人类所有复杂交互和对话中的细微差别,减少因说话口音问题而出错的现象,AISense必须要实现技术升级。
他表示:“这是一项深奥且困难的技术,需要进行非常复杂的监督式学习,并借助成千上万小时的录音来获取大量标记数据。”
梁松是硅谷知名的技术风云人物。他曾担任谷歌地图位置服务的技术组长,负责Blue dot的工作;曾创建公司Alohar Mobile(该公司于2013 年被阿里巴巴收购)。
他新创建的公司AISense正在构建一个半监督式学习系统,无需人类转录便可通过大量的会议数据进行自主学习。
他们的团队可以从美国国家公共电台 (NPR) 广播节目的档案和美国国会图书馆的最高法院会议记录中免费获取数据。能够在线获得如此大规模的训练数据,AISense无疑是幸运的。
Otter团队的合影
接下来,他们利用50 个 NVIDIA Tesla GPU,将海量音频数据和录音为Otter训练算法。梁松说:“作为一家初创公司,我们本来应该在花钱上非常节省。但是,在 GPU 上投入更多资源却是必须要做的。”
AISense认为企业客户可能会将Otter用于会议系统。为此,他们计划推出一个只支持订阅的高级版本,并且已将其部分技术授权给了企业客户。
最近,AISense 和 Zoom 视频通讯公司宣布合作。他们将共同处理大量的语音数据,并利用AISense 的技术来实现机器转录。
截至目前,AISense 已获得超过 1300 万美元的融资。相关投资者包括维港投资、Draper Associates、Slow Ventures、硅谷科技创投、布里奇沃特投资公司、500 Startups以及斯坦福教授 David Cheriton。