主题: Multimodal Deep Learning

摘要: 深层神经网络促进了多媒体数据分析在自然语言、视觉和语音领域的统一框架中的融合。图像字幕、唇读或视频声处理是利用深度神经表征的泛化特性的一个新的令人兴奋的研究领域的一些首次应用。本教程将首先回顾用于编码和解码视觉、文本和音频的基本神经结构,然后回顾那些成功地跨模式转换信息的模型。

作者简介: Xavier Giro-i-Nieto,巴塞罗那加泰罗尼亚大学(UPC)的副教授,是智能数据科学和人工智能研究中心(IDEAI-UPC)的成员,也是巴塞罗那超级计算中心(BSC)的访问研究员。他与都柏林城市大学数据分析洞察中心、哥伦比亚大学数字视频和多媒体以及Vilynx、Mediapro和Crisalix的工业合作伙伴密切合作。他是UPC学校具有深度学习的人工智能研究生学位的主管,并负责协调UPC TelecomBCN的深度学习课程,以及2018年巴塞罗那深度学习研讨会的总主席。他是IEEE多媒体事务的副主编,并为机器学习、计算机视觉和多媒体领域的顶级会议做评论。

成为VIP会员查看完整内容
7

相关内容

加泰罗尼亚理工大学(Universitat Politècnica de Catalunya. BarcelonaTech),简称UPC,是西班牙最顶尖的理工科大学,同时也是一所欧洲顶尖、享誉世界的理工科院校。UPC成立于1971年3月,由巴塞罗那高等工程学院、巴塞罗那高等建筑学院和特拉萨高等工程学院三所有着悠久办学历史的顶尖高等学院合并而成,位于西班牙加泰罗尼亚自治区,其大部分校区位于首府巴塞罗那市。UPC专注于工程与自然科学前沿领域的研究,其高质量的教学与科研水平在国际上具有很高的知名度。
【UAI 2019 Tutorials】深度学习数学(Mathematics of Deep Learning)
中科院网络数据科学与技术重点实验室 2017年大事记
中国科学院网络数据重点实验室
18+阅读 · 2018年2月14日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关论文
微信扫码咨询专知VIP会员