科普篇:一篇文章推荐给你,到底经历了哪些算法?

背景

这是一篇科普文章,科普从在feed流刷新了一下之后,推荐给你的文章,到底经历了哪些算法。这些算法在哪些环节做了什么事情。

此文章不断更新,2018-12-10 初稿。

具体说明

1、内容安全篇

一篇内容,在作者完稿后,点击发送,会送到平台去审核。而我们知道,一个"安全&合格"的内容才能有机会推荐给用户,为了保证内容合格,被提交的内容刚开始就会经历以下"安全&合格"模型:

①色情模型:判断文章不是色情内容

②广告模型:判断文章不是广告内容

③敏感内容模型:判断文章不涉及到反动等敏感内容

④消重模型:判断文章不是抄袭的内容

⑤反感内容模型:判断文章不是用户讨厌的内容

⑥人工审核队列排序:提升审核ROI

2、内容画像篇

安全且合格的内容入库后,要对内容做抽象的画像处理,俗称"打标签(其实这种叫法失之毫厘,差之千里)",来提供给推荐使用。涉及到NLP的算法比较多,这里列举一些比较简单基础的:

①分词算法:包括分词,词性标注等

②聚类算法:将相似内容聚成堆

③分类算法:按照定义好的分类进行分类

④各种embedding算法

3、用户画像篇

用户画像跟内容画像是相辅相成的,因为最终要基于画像去做连接。用户画像一般都是基于统计计算得到的,跟算法关系不大(置信度区间算法,贝叶斯平均等此处不议),基于模型的主要有以下几个:

①基于模型填充用户画像:比如统计不到用户的性别,但是根据他看美妆等通过计算得到她大概率是女性

②用户反垃圾类算法:垃圾用户识别,垃圾行为识别

4、推荐

推荐按照核心环节分,主要分为两个环节,对应的也是两大类算法,这两个环节,涉及多种算法,包括集成方法等,也是推荐算法最核心的算法环节:

①召回:各种召回算法,ContentBase的,CF的,各种深度学习的,bandit算法等

②排序:各种排序算法

5、客户端展现

展现相关的算法我目前了解的比较少,主要包括:

①缩略展现区域预估:预测视频的某一帧最好,预测图片的某个区域最好

机器学习 2018-12-10
上一篇: 下一篇:

评论已关闭。