基于LDA的主题模型实践(三)

2015 年 10 月 12 日 机器学习深度学习实战原创交流 惜心(伟祺)

前面花了两大篇幅讲解LDA的原理:

  • LDA模型原理

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207386308&idx=1&sn=f2fad036a3813939a38ecee3e65a7928#rd

2LDA求解方法Gibbus采样

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207482843&idx=1&sn=fc79a3e1c339047fe96d5fb3e25ced2f#rd

在了解了模型基本原理和求解过程之后,这次我们结合“基于无监督算法的用户画像”来演示LDA算法的实际应用,其主要思路是使用LDA对用户使用APP的描述信息对用户进行聚类,并且给出相应的关键词主题定义。

让我们先回顾一下无监督学习用户画像的思路:


具体用户画像的文章,请参考:

http://mp.weixin.qq.com/s?__biz=MzA4NTIyMjY0Mg==&mid=207159018&idx=1&sn=9ff0aac1d48e2ab10e7479f4e87a20b7#rd

LDA算法的输入输出:

Input:


Parameters:


Output:


结合用户手机APP的数据,那么基于LDA无监督学习的用户画像过程如下:

1、输入用户使用APP及描述信息

2、对输入文本进行分词

3、把分好词文本输入LDA模型中聚类

4、输出文本测试结果

对收集到数据清洗去杂处理后,以每行一个用户及app名称和描述存储


把处理好的信息用HanLp分词包用crf方法分词


调整LDA模型参数ab,主题数,以及迭代次数


设置完参数,初始化LDA模型


初始化过程是对每一个词先赋予一个随机主题


吉布斯采样达到LDA分布的马尔科夫链平稳,求出LDA最优解



输出结果如下:


如上图所示:

1)把文档聚成10个主题,每个主题下有对应的关键词表

2)关键词属于对应主题的概率,全部关键词概率和为1

3)根据关键词归纳出主题标签

例如:

topic0中对应关键词表:医院、治疗、患者;可见topic0是和“医疗”相关的

topic2中对应关键词表:市场、中国、企业、公司;可见topic2是和“经济”相关的

topic4中对应关键此表:工作、专业、学生、学校;可见topic4是和“学生求职相关


登录查看更多
23

相关内容

Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
博客 | 一次LDA的项目实战(附GibbsLDA++代码解读)
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
基于LDA的主题模型实践(二 )MCMC--吉布斯采样
机器学习深度学习实战原创交流
25+阅读 · 2015年9月17日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
相关资讯
博客 | 一次LDA的项目实战(附GibbsLDA++代码解读)
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
基于LDA的主题模型实践(二 )MCMC--吉布斯采样
机器学习深度学习实战原创交流
25+阅读 · 2015年9月17日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
Top
微信扫码咨询专知VIP会员