这是一篇科普文章,科普从在feed流刷新了一下之后,推荐给你的文章,到底经历了哪些算法。这些算法在哪些环节做了什么事情。
此文章不断更新,2018-12-10 初稿。
1、内容安全篇
一篇内容,在作者完稿后,点击发送,会送到平台去审核。而我们知道,一个"安全&合格"的内容才能有机会推荐给用户,为了保证内容合格,被提交的内容刚开始就会经历以下"安全&合格"模型:
①色情模型:判断文章不是色情内容
②广告模型:判断文章不是广告内容
③敏感内容模型:判断文章不涉及到反动等敏感内容
④消重模型:判断文章不是抄袭的内容
⑤反感内容模型:判断文章不是用户讨厌的内容
⑥人工审核队列排序:提升审核ROI
2、内容画像篇
安全且合格的内容入库后,要对内容做抽象的画像处理,俗称"打标签(其实这种叫法失之毫厘,差之千里)",来提供给推荐使用。涉及到NLP的算法比较多,这里列举一些比较简单基础的:
①分词算法:包括分词,词性标注等
②聚类算法:将相似内容聚成堆
③分类算法:按照定义好的分类进行分类
④各种embedding算法
3、用户画像篇
用户画像跟内容画像是相辅相成的,因为最终要基于画像去做连接。用户画像一般都是基于统计计算得到的,跟算法关系不大(置信度区间算法,贝叶斯平均等此处不议),基于模型的主要有以下几个:
①基于模型填充用户画像:比如统计不到用户的性别,但是根据他看美妆等通过计算得到她大概率是女性
②用户反垃圾类算法:垃圾用户识别,垃圾行为识别
4、推荐
推荐按照核心环节分,主要分为两个环节,对应的也是两大类算法,这两个环节,涉及多种算法,包括集成方法等,也是推荐算法最核心的算法环节:
①召回:各种召回算法,ContentBase的,CF的,各种深度学习的,bandit算法等
②排序:各种排序算法
5、客户端展现
展现相关的算法我目前了解的比较少,主要包括:
①缩略展现区域预估:预测视频的某一帧最好,预测图片的某个区域最好