成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
Meta:不用插管!AI看看脑电图就知道你在想啥
2022 年 9 月 6 日
新智元
新智元报道
编辑:David 武穆
【新智元导读】
Meta表示,以后AI就能读懂你在想啥了。
每年,全世界有超过 6900 万人饱受创伤性脑损伤的折磨,他们中的许多人无法通过语音、打字或手势进行交流。
如果研究人员开发出一种技术,可以通过非侵入性的方式直接从大脑活动解码语言,这些人的生活将会大大改善。
现在,Meta搞了个新研究,就是要解决这个事儿。
刚刚,Meta AI官方博客发文,介绍了可利用AI从大脑活动中直接解码语音的新技术。
从一段时间为3秒的大脑活动中,这个AI可以从人们日常使用的 793 个单词的词汇表中解码相应的语音片段,准确率高达 73%。
以往,从大脑活动中解码语音一直是神经科学家和临床医生的长期目标,但大部分进展依赖于侵入性大脑记录技术,例如立体定向脑电图和皮层电图。
这些设备可以提供比无创方法更清晰的信号,但需要神经外科干预。
虽然这项工作的结果表明从大脑活动记录中解码语音是可行的,但使用非侵入性方法解码语音将提供一种更安全、更具可扩展性的解决方案,最终可以使更多人受益。
然而,这是非常具有挑战性的,因为非侵入式录音是出了名的嘈杂,并且由于各种原因,包括每个人的大脑和传感器放置位置的差异,录音会话和个人之间可能会有很大差异。
Meta通过创建一个经过对比学习训练的深度学习模型来应对这些挑战,然后使用它来最大限度地对齐非侵入性大脑记录和语音。
为此,Meta使用一个由 FAIR 团队于 2020 年开发的、开源的自我监督学习模型wave2vec 2.0,来识别听有声读物的在志愿者大脑中语音的复杂表示。
Meta主要关注两种非侵入性技术:脑电图和脑磁图(简称 EEG 和 MEG),分别测量由神经元活动引起的电场和磁场的波动。
在实践中,这两个系统每秒可以使用数百个传感器拍摄大约 1000 个宏观大脑活动的快照。
Meta利用了来自学术机构的四个开源 EEG 和 MEG 数据集,利用了 169 名健康志愿者的 150 多个小时的录音,在这些录音中,是他们正在听有声读物和英语和荷兰语的孤立句子。
然后,Meta将这些 EEG 和 MEG 记录输入到一个「大脑」模型中,该模型由一个带有残差连接的标准深度卷积网络组成。
众所周知,EEG 和 MEG 记录在个体之间存在很大差异,因为个体大脑解剖结构、大脑区域神经功能的位置和时间差异以及记录期间传感器的位置。
在实践中,这意味着分析大脑数据通常需要一个复杂的工程管道,用于重新调整模板大脑上的大脑信号。在以前的研究中,大脑解码器接受了少量录音的训练,以预测一组有限的语音特征,例如词性类别或少量词汇中的单词。
为了方便研究,Meta设计了一个新的主题嵌入层,它被训练成端到端,将所有的大脑记录排列在一个共同的空间。
为了从非侵入性大脑信号中解码语音,Meta训练了一个具有对比学习的模型,以校准语音及其相应的大脑活动
最后,Meta的架构学会了将大脑模型的输出,与呈现给参与者的语音的深度表征相匹配。
在Meta之前的工作中,我们使用wav2vec 2.0,表明这种语音算法会自动学习生成与大脑一致的语音表示。
wav2vec 2.0中出现的语音“类脑”表示,使Meta的研究人员自然而然地选择构建自己的解码器,因为它有助于让Meta的研究人员了解,应该从大脑信号中提取哪些表示。
Meta最近展示了 wav2vec 2.0(左)的激活映射到大脑(右)以响应相同的语音。算法的第一层(冷色)的表示映射到早期听觉皮层,而最深层映射到高级大脑区域(例如前额叶和顶叶皮层)
训练后,Meta的系统执行所谓的零样本分类:给定一个大脑活动片段,它可以从大量新音频片段中确定该人实际听到的是哪个片段。
算法推断出这个人最有可能听到的词。这是一个令人兴奋的步骤,因为它表明人工智能可以成功地学会在感知语音时解码大脑活动的嘈杂和可变的非侵入性记录。
下一步是看看研究人员是否可以扩展这个模型,直接从大脑活动中解码语音,而不需要音频剪辑池,即,转向安全和多功能的语音解码器。
研究人员的分析进一步表明,我们算法的几个组成部分,包括使用 wav2vec 2.0 和主题层,对解码性能是有益的。
此外,Meta的算法随着 EEG 和 MEG 记录的数量而改进。
实际上,这意味着Meta研究人员的方法受益于大量异构数据的提取,并且原则上可以帮助改进小型数据集的解码。
这很重要,因为在许多情况下,很难让给定的参与者收集大量数据。例如,要求患者在扫描仪上花费数十个小时来检查系统是否适合他们是不切实际的。
相反,算法可以在包括许多个人和条件的大型数据集上进行预训练,然后在数据很少的情况下为新患者的大脑活动提供解码支持。
Meta的研究令人鼓舞,因为结果表明,经过自我监督训练的人工智能可以成功地从大脑活动的非侵入性记录中解码感知到的语音,尽管这些数据中存在固有的噪声和可变性。
当然,这些结果只是第一步。在这项研究工作中,Meta专注于解码语音感知,但实现患者交流的最终目标需要将这项工作扩展到语音生产。
这一研究领域甚至可以超越帮助患者,潜在地包括启用与计算机交互的新方式。
从更大的视野来看,Meta的工作是科学界使用人工智能更好地理解人类大脑的努力的一部分。Meta希望公开分享这项研究,以加快应对未来挑战的进展。
论文解析
论文链接:
https://arxiv.org/pdf/2208.12266.pdf
本文提出了一个单一的端到端架构,在大量的个体群中进行对比性学习训练,以预测自然语音的自监督表示。
我们在四个公共数据集上评估了模型,其中包括169名志愿者在听自然语音时用脑磁图或脑电图(M/EEG)记录的数据。
这为从非侵入性的大脑活动记录中实时解码自然语言处理提供了一条新的思路。
方法和架构
我们首先正式确定了神经解码的通用任务,并激励使用对比性损失进行训练。在介绍用于大脑解码的深度学习架构之前,我们介绍了由预训练的自我监督模块wav2vec 2.0提供的丰富的语音表示。
我们的目标是在健康志愿者被动地听他们的母语口语句子时,从用无创脑磁图(MEG)或脑电图(EEG)记录的高维大脑信号的时间序列中解码语音。
口语是如何在大脑中表示的在很大程度上是未知的,因此,通常以监督的方式训练解码器,以预测已知与大脑有关的语音的潜在表示。
从经验上看,我们观察到这种直接回归的方法面临几个挑战:当语音出现时,解码预测似乎被一个不可区分的宽带成分所支配(图2.A-B)。
这一挑战促使我们做出三个主要贡献:引入对比性损失、预训练好的深层语音表征和专门的大脑解码器。
1、对比性损失
首先,我们推断,回归可能是一种无效的损失,因为它偏离了我们的目标:从大脑活动中解码语音。因此,我们用一种对比性损失来代替它,即 "CLIP "损失,它最初被设计用来匹配文本和图像这两种模式中的潜在表征。
2、预训练的深度语音表征
其次,Mel频谱是语音的低层次表征,因此不太可能与丰富的皮质表征相匹配。
因此,我们用语音的潜在表征取代了Mel频谱Y,这些表征要么是端到端学习的("Deep Mel "模型),要么是用一个独立的自我监督的语音模型学习的。
在实践中,我们使用wav2vec2-large-xlsr-531,它已经对53种不同语言的56k小时的语音进行了预训练。
3、专门的「大脑解码器」
最后,对于大脑模块,我们使用一个深度神经网络fclip,输入原始的M/EEG时间序列X和相应的主题s的单次编码,并输出潜在的大脑表示Z,其采样率与X相同。
这个架构包括(1)在M/EEG传感器上的空间注意力层,然后由一个针对特定对象的1x1卷积设计,以利用对象间的变异性,其输入是卷积块的堆叠。
结果显示,wav2vec 2.0 模型可以从3秒的脑电信号中识别出相应的语音片段,在1,594个不同的片段中,准确率高达72.5%,在2,604个脑电记录片段中,准确率高达19.1%,可以对训练集中没有的短语进行解码。
参考链接:
https://arxiv.org/pdf/2208.12266.pdf
https://ai.facebook.com/blog/ai-speech-brain-activity/
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
脑电图
关注
0
自主机器智能!图灵奖得主Yann LeCun指明下一代AI方向
专知会员服务
54+阅读 · 2022年6月29日
BCI离实用还有多远?《克服「脑机接口」挑战的研究》韩国学者2022最新综述,Studies to Overcome Brain–Computer Interface Challenges
专知会员服务
29+阅读 · 2022年3月19日
如何做出牛的研究?GAT作者DeepMind研究科学家Petar谈论自己读博科研经验,为您指点一二
专知会员服务
34+阅读 · 2021年4月27日
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
112+阅读 · 2020年6月27日
【UTSA】最新《可解释人工智能XAI:机会与挑战》, 25页pdf119篇文献详述XAI技术进展
专知会员服务
161+阅读 · 2020年6月24日
狗狗如何看世界?人类研究员要解码狗脑中的视觉认知
机器之心
0+阅读 · 2022年9月16日
首个「真·赛博人类」!36岁小伙大脑插管7年多,打破世界记录
新智元
0+阅读 · 2022年8月18日
从1小时到3.5分钟,Meta新算法一部手机搞定3D人脸数据采集,可用于VR的那种
量子位
0+阅读 · 2022年7月6日
黑客帝国降临!埋入1万个微米电极窃听大脑,马斯克脑机将植入人体
新智元
0+阅读 · 2022年5月29日
LeCun看了都说好!Meta AI一次搞定语音、视觉和文本三个SOTA
新智元
1+阅读 · 2022年2月15日
视知觉学习中的脑功能网络变化及其与学习效果的关系
国家自然科学基金
0+阅读 · 2015年12月31日
深度视觉的神经群体编码机制
国家自然科学基金
0+阅读 · 2014年12月31日
运用排序和相似度学习进行基于区域的图像检索研究
国家自然科学基金
0+阅读 · 2012年12月31日
人体伤害性疼痛的特异性电生理指标检测与提取
国家自然科学基金
0+阅读 · 2012年12月31日
双向多维脑机接口关键技术及其应用研究
国家自然科学基金
2+阅读 · 2011年12月31日
Nonlinear MCMC for Bayesian Machine Learning
Arxiv
0+阅读 · 2022年11月24日
Explainable Deep Learning Methods in Medical Diagnosis: A Survey
Arxiv
35+阅读 · 2022年5月10日
Efficient Transformers: A Survey
Arxiv
35+阅读 · 2022年3月14日
Explainability in Graph Neural Networks: A Taxonomic Survey
Arxiv
51+阅读 · 2020年12月31日
MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation
Arxiv
39+阅读 · 2019年7月31日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
脑电图
解码
脑电
AI
表示
脑损伤
相关VIP内容
自主机器智能!图灵奖得主Yann LeCun指明下一代AI方向
专知会员服务
54+阅读 · 2022年6月29日
BCI离实用还有多远?《克服「脑机接口」挑战的研究》韩国学者2022最新综述,Studies to Overcome Brain–Computer Interface Challenges
专知会员服务
29+阅读 · 2022年3月19日
如何做出牛的研究?GAT作者DeepMind研究科学家Petar谈论自己读博科研经验,为您指点一二
专知会员服务
34+阅读 · 2021年4月27日
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
112+阅读 · 2020年6月27日
【UTSA】最新《可解释人工智能XAI:机会与挑战》, 25页pdf119篇文献详述XAI技术进展
专知会员服务
161+阅读 · 2020年6月24日
热门VIP内容
开通专知VIP会员 享更多权益服务
Andrej Karpathy:2025 年 LLM 年度回顾(2025 LLM Year in Review)
前沿人工智能趋势报告(Frontier AI Trends Report)
音退化问题:基于输入操控的鲁棒语音转换综述
相关资讯
狗狗如何看世界?人类研究员要解码狗脑中的视觉认知
机器之心
0+阅读 · 2022年9月16日
首个「真·赛博人类」!36岁小伙大脑插管7年多,打破世界记录
新智元
0+阅读 · 2022年8月18日
从1小时到3.5分钟,Meta新算法一部手机搞定3D人脸数据采集,可用于VR的那种
量子位
0+阅读 · 2022年7月6日
黑客帝国降临!埋入1万个微米电极窃听大脑,马斯克脑机将植入人体
新智元
0+阅读 · 2022年5月29日
LeCun看了都说好!Meta AI一次搞定语音、视觉和文本三个SOTA
新智元
1+阅读 · 2022年2月15日
相关基金
视知觉学习中的脑功能网络变化及其与学习效果的关系
国家自然科学基金
0+阅读 · 2015年12月31日
深度视觉的神经群体编码机制
国家自然科学基金
0+阅读 · 2014年12月31日
运用排序和相似度学习进行基于区域的图像检索研究
国家自然科学基金
0+阅读 · 2012年12月31日
人体伤害性疼痛的特异性电生理指标检测与提取
国家自然科学基金
0+阅读 · 2012年12月31日
双向多维脑机接口关键技术及其应用研究
国家自然科学基金
2+阅读 · 2011年12月31日
相关论文
Nonlinear MCMC for Bayesian Machine Learning
Arxiv
0+阅读 · 2022年11月24日
Explainable Deep Learning Methods in Medical Diagnosis: A Survey
Arxiv
35+阅读 · 2022年5月10日
Efficient Transformers: A Survey
Arxiv
35+阅读 · 2022年3月14日
Explainability in Graph Neural Networks: A Taxonomic Survey
Arxiv
51+阅读 · 2020年12月31日
MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation
Arxiv
39+阅读 · 2019年7月31日
大家都在搜
Palantir
蓝牙安全攻防
大型语言模型
多域作战
未来战争
突防
反恐
机场
朱克爱德华兹家族
滴滴司机调度系统实践
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top