博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
LDA解决的问题
阅读量:6927 次
发布时间:2019-06-27

本文共 677 字,大约阅读时间需要 2 分钟。

人类是怎么生成文档的呢?LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示:

 

    然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词):

  

    而当我们看到一篇文章后,往往喜欢推测这篇文章是如何生成的,我们可能会认为作者先确定这篇文章的几个主题,然后围绕这几个主题遣词造句,表达成文。
    LDA就是要干这事:
根据给定的一篇文档,推测其主题分布
    通俗来说,可以假定认为
人类是根据上述文档生成过程写成了各种各样的文章,现在某小撮人想让计算机利用LDA干一件事:你计算机给我推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥
    然,就是这么一个看似普通的LDA,一度吓退了不少想深入探究其内部原理的初学者。难在哪呢,难就难在LDA内部涉及到的数学知识点太多了。
    在LDA模型中,一篇文档生成的方式如下:
  • 从狄利克雷分布中取样生成文档 i 的主题分布
  • 从主题的多项式分布中取样生成文档i第 j 个词的主题
  • 从狄利克雷分布中取样生成主题对应的词语分布
  • 从词语的多项式分布中采样最终生成词语

    其中,类似Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。

    此外,LDA的图模型结构如下图所示:

你可能感兴趣的文章
TP复习12
查看>>
『原创』手把手教你用c#做个Splash(启动屏幕)
查看>>
oracle 基本操作
查看>>
Java问题抽象和递归(母羊生母羊问题为例)
查看>>
Pro Android 4 第五章 理解Intent
查看>>
用python的minidom解析xml(转载)
查看>>
费马小定理在公钥加密中的应用及原理
查看>>
使用 TestLink 进行测试管理(转载)
查看>>
Python学习手记——Using the Python Interpreter
查看>>
[Linux 虚拟化] Linux 中使用 KVM
查看>>
How to slove the problem of Garbage Characters of Chinese and Errors of Images in Qt
查看>>
Google Analytics初步接触
查看>>
ASP.NET MVC与Sql Server建立连接
查看>>
Windows Live Messenger大量邀请发放
查看>>
publishing failed with multiple errors eclipse
查看>>
hibernate not support decode
查看>>
python参考手册--第9章
查看>>
mongodb常用操作
查看>>
SEO艺术
查看>>
漫步天猫——新商路导航(全彩)
查看>>