当前位置:文库下载 > 所有分类 > IT/计算机 > 互联网 > 用PU学习算法做文本挖掘
免费下载此文档

用PU学习算法做文本挖掘

正例和无标记样本学习(Learning from Positive and Unlabeled examples)一般称为LPU或PU学习。PU学习是一种常用的半监督的二元分类模型,它的目的是通过已标注的正例数据和大量的未标注数据训练出一个用于区分正反分类的分类器。

用PU学习算法做文本挖掘

这个方向国内也有类似,甚至可能更前瞻的基于社交化数据挖掘, 提炼出个性化推荐。火花无线, 一家O2O的无线新秀所推出的美食推荐应用, 麻花, 就是一个典型案例。作为一部分基础数据, 该应用挖掘了新浪微博上有关餐厅的微博分享, 并汇集成热门餐厅。我们来看一下麻花是怎样在新浪微博等SNS上做数据挖掘的。

图12-3麻花界面示意图

为了给用户最个性化和最高价值的过程中, 该应用进一步通过互粉关系, 把互粉用户所推荐的内容提高权重,推荐给用户, 从而提高推荐餐馆的相关度和增加搜索结果的可信度。 说起来很简单,但是在这里比较关键的是如何从用户的某条微博中发现地点和判断用户是对该地点做出评论。不是每条包含地点的微博都是对地点的推荐。比如

“我在贝塔咖啡吃午饭”

或者

“今天去福地听讲座”

这些微博虽然提到了地点,但只能算是一个“check-in”,并不是对这些地点的评价。

用PU学习算法做文本挖掘

第1页

免费下载Word文档免费下载:用PU学习算法做文本挖掘

(下载1-3页,共3页)

我要评论

返回顶部