机器之心报道
机器之心编辑部
荷兰、瑞士两位学者(其中一位是教授)的SIGIR 2019论文被发现抄袭,部分内容与RecSys 2018一篇论文高度相似,只有个别用词出现改动。
他们的这篇论文被 SIGIR 会议接收。SIGIR 会议的全称是「Special Interest Group on Information Retrieval」,是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,在《中国计算机学会(CCF)推荐国际学术会议》列表中属于 A 类会议。
「解码器利用了一个单一的 GRU,迭代地逐词生成评论。具体来说,在时间步 t 上,GRU 首先将之前时间步的输出表征 z_ut-1 映射为 k 维向量 y_ut-1」,并将其与连接在一起,以生成一个新的向量 y_ut。最后,将 y_ut 输入 GRU,得到隐藏表征 h_t。接下来,将 h_t 与输出投影矩阵相乘,并通过 softmax 遍历文档词汇表中的所有单词来表示每个单词的概率。时间步 t 上的输出词 z_ut 从 softmax 给出的多项式分布中采样得到。」
「用户评论解码器利用了一个单独的 GRU,迭代地逐词生成评论。在时间步 t 上,解码器 GRU 首先将前一个时间步上的输出词 y_i, t-1 嵌入到相应的词向量,然后将其与用户文本特征向量
连接在一起。连接后的向量被用作解码器 GRU 的输入,以获取隐藏激活 h_t。接下来,将隐藏激活与输出投影矩阵相乘,并通过 softmax 遍历文档词汇表中的所有单词来表示当前语境的每个单词的概率。时间步 t 上的输出词 y_i, t 从从 softmax 给出的多项式分布中采样得到」。
「评论 r 的每个单词都被映射成对应的词向量,然后与特定于用户的向量连在一起。需要注意的是,在 2.3 节的对抗训练中,特定于用户的向量与鉴别器的参数 D_*θ*是一起学习的。接下来,用一个卷积层、最大池化层和一个全连接映射层来处理连接后的向量表征。CNN 的最终输出是一个 sigmoid 函数,它会将概率归一化为 [0, 1] 区间内的数字,表示候选评论由用户 u 撰写的概率。」
「首先,将评论中的每个词映射到相应的词向量,然后将其与一个特定于用户、表明用户信息的向量连接在一起。特定于用户的向量与训练中的其他参数是一起学习的。接下来,用一个卷积层、最大池化层和一个全连接层来处理连接后的向量表征。最终的输出单元是 sigmoid 非线性,它会将概率压缩到 [0, 1] 区间内的数字。」
我们注意到,这两段表述中有一个句子几乎完全一样(接下来,用一个卷积层……来处理连接后的向量表征)。
参考链接:
https://www.reddit.com/r/MachineLearning/comments/dq82x7/discussion_a_questionable_sigir_2019_paper/
https://gofile.io/?c=ej2y69
https://researchrepository.ucd.ie/bitstream/10197/10892/4/Why%20I%20like%20it%20Multi%20Task%20learning%20for%20recommendation%20and%20Explanation.pdf
第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项,重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。