机器学习

今日头条推荐系统分享个人总结

背景 欢欢对外有过两次对头条推荐算法的分享,两次分享的质量差距还是挺大的。第一次的分享没有参加(叫今日头条的人工智能技术实践),第二次的分享(叫让算法公开透明),是公开报名,我有幸参加了。总体来说,明显第二次分享是给D的解释大于真正的算法介绍,不过对于推荐算法入门来说,还是能学到很多的东西。 最近就两次文章的PPT+文章做了一些整理,学习,总结。以下内容不代表原分享,掺杂了很多自己的理解。(附上第二次分享文章+视频:http://www.sohu.com/a/218261968_464033) 具体说明 文章从以下几个方面分享我的学习与总结: 1、推荐算法的价值 2、头条推荐算法介绍 3、推荐工程架构与推荐算法评估工具 4、头条推荐算法一些&qu...
机器学习 02-27 评论已关闭

推荐效果线上评测:AB测试平台的设计与实现(二)

背景 本来想着所有的AB相关的都写在上一个博文,但是实在太长了那个,最近服务器不稳定,为了隔离开,特此开新的博客文章,专门写一个,如何开发一个AB测试平台。 上一篇其实更多的是理论基础,这一篇就偏向具体实战。 具体需求 1、整体框架 (点击此处看大图) 2 具体设计 原型见:https://oy3z1e.axshare.com ,因为不是专业做这个,只是调研,所以实现都比较简单。 分流模型 (点击此处查看大图) 剩下的两部分,业务跟用户部分,就不用写了,是业务方相关了。 3 补充说明 这篇文章写完,对AB测试的研究部分就算结束了,当然依然存在着一些疑问跟具体实践过程中的问题。有一些问题有了答案,有一些问题还没有。我会继续更新记录到这个...
机器学习 02-06 评论已关闭

推荐效果线上评测:AB测试平台的设计与实现(一)

1、背景 在推荐系统中,评测效果,除了离线的AUC,更合理的方法是通过线上真实的AB测试,来比较策略的效果。 AB测试来自医学的双盲实验,在双盲测试中: 1、病人随机被分成两组,在不知情的情况下,分别服用安慰剂跟测试用药 2、经过一段时间后,再来比较两组病人的表现是否有显著差异。 从而决定药物是否真的有用。 互联网行业的AB测试类似,对于一个策略/UI,在同一个时间维度,保证其他体验一致的情况下,分析实验组跟对照组的区别,以便做决策判断。 因为经常接触AB测试,以及看到了国内一些公司的AB平台不同的设计实现方法,整理一下AB测试平台相关知识。 2、具体说明 本文从以下方面讨论。 2.1 单层实验:方法以及问题 2.2 多层重叠实...
机器学习 02-05 评论已关闭

category,label,tag的区别

背景 在统计日志,推荐中,经常会使用到category,label,tag。有时候分不清三者的区别,整理分享。 具体说明 翻译: category :分类  label:标记 tag:标签 1、label与tag的区别 -文本指代不同:label中的文本信息代表本身的内容,所指向区域的功能;而tag文本表示对象的附加属性,这个属性是人或者用户给予的,用来描述该对象的。 -概念起源不同:label是网页上的标志,展示给用户网页上的内容分布,标记的设计和命名,应该早先于标记所指向的内容产生;而tag,从来源上就可看出是一种人为的记号,大部分情况是内容产生后,向内容添加标签以方便再次返回查找。 -用途不同:label表明了信息之间的层级和归属关系,可用于引导(导...
机器学习 01-05 评论已关闭

stop words(中文+英文)

背景 分享一份停用词表,中文+英文 具体说明 stop_words.txt
机器学习 01-05 评论已关闭

Facebook推荐工程师交流笔记

背景 与facebook某工程师交流,记一下交流的信息 具体说明 自己总结: Q1:facebook的推荐PM跟推荐RD怎么配合,推荐PM的需要涉及到model的工作吗? A:因为feed是一个会涉及到多个业务的部门,所以PM会做很多协调,管理方面的工作,来推动各方支持。推荐PM不会涉及到model部分。 Q2:如果是纯富媒体内容(比如纯图片,纯视频,非文本类),在推荐中的学习使用情况。 A:facebook没有对内容有任何的学习处理,会提取用户发布的#hashtag#,但是不会自己再对内容做理解。所以也没有处理过图像,facebook实验室针对图像做的一些东西,instagram在用,但是facebook feed本身story没用。 ——延展:这里才想起来,facebook其实只有一种召回,就是关...
机器学习 01-04 评论已关闭

排序模型:LR连续特征离散化

背景 跟RD看特征interaction时候的训练出来的结果,看到对一级标签点击率有多个Wi 参数,问了一下原因。搜了一下,把结果记录一下 具体说明 什么是特征离散化 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型 有什么优势 0. 离散特征的增加和减少都很容易,易于模型的快速迭代; 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰; 3. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化...
机器学习 12-28 评论已关闭

内容推荐学习笔记1:认识推荐系统

1、产品解决什么问题   ● 在信息过载的情况下,用户更方便快捷的提升自己在消费内容上的时间利用率   ● 帮助用户发现他潜在喜欢的内容 2、怎么解决:推荐系统 推荐系统:发掘用户(user)集合与物品集合(item)之间的语义关系,为用户生成最相关的Top-N 推荐系统的核心是利用机器学习的方法,来帮忙做筛选跟排序。 推荐系统的核心算法:可以根据用户画像,内容画像和情景信息,计算用户对内容感兴趣的概率P(y|xu,xi,xc) 3、具体的解决办法 推荐系统架构&流程 推荐系统主要分为:召回,排序 两部分 召回:寻找与用户相关的内容,包括多种召回手段 排序:在候选集里,找到最合适的top-N,主要分为粗排与细排两部分 ...
机器学习 12-20 评论已关闭

新户冷启动:推荐冷启动

背景 针对新户,怎么快速的找到用户喜欢的兴趣,做个性化推荐,冷启动很重要。 总结了一下现在可以做的一些冷启动的手段。 具体做法
机器学习 12-12 评论已关闭