机器学习

category,label,tag的区别

背景 在统计日志,推荐中,经常会使用到category,label,tag。有时候分不清三者的区别,整理分享。 具体说明 翻译: category :分类  label:标记 tag:标签 1、label与tag的区别 -文本指代不同:label中的文本信息代表本身的内容,所指向区域的功能;而tag文本表示对象的附加属性,这个属性是人或者用户给予的,用来描述该对象的。 -概念起源不同:label是网页上的标志,展示给用户网页上的内容分布,标记的设计和命名,应该早先于标记所指向的内容产生;而tag,从来源上就可看出是一种人为的记号,大部分情况是内容产生后,向内容添加标签以方便再次返回查找。 -用途不同:label表明了信息之间的层级和归属关系,可用于引导(导...
机器学习 01-05 评论已关闭

stop words(中文+英文)

背景 分享一份停用词表,中文+英文 具体说明 stop_words.txt
机器学习 01-05 评论已关闭

Facebook推荐工程师交流笔记

背景 与facebook某工程师交流,记一下交流的信息 具体说明 自己总结: Q1:facebook的推荐PM跟推荐RD怎么配合,推荐PM的需要涉及到model的工作吗? A:因为feed是一个会涉及到多个业务的部门,所以PM会做很多协调,管理方面的工作,来推动各方支持。推荐PM不会涉及到model部分。 Q2:如果是纯富媒体内容(比如纯图片,纯视频,非文本类),在推荐中的学习使用情况。 A:facebook没有对内容有任何的学习处理,会提取用户发布的#hashtag#,但是不会自己再对内容做理解。所以也没有处理过图像,facebook实验室针对图像做的一些东西,instagram在用,但是facebook feed本身story没用。 ——延展:这里才想起来,facebook其实只有一种召回,就是关...
机器学习 01-04 评论已关闭

排序模型:LR连续特征离散化

背景 跟RD看特征interaction时候的训练出来的结果,看到对一级标签点击率有多个Wi 参数,问了一下原因。搜了一下,把结果记录一下 具体说明 什么是特征离散化 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型 有什么优势 0. 离散特征的增加和减少都很容易,易于模型的快速迭代; 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰; 3. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化...
机器学习 12-28 评论已关闭

内容推荐学习笔记1:认识推荐系统

1、产品解决什么问题   ● 在信息过载的情况下,用户更方便快捷的提升自己在消费内容上的时间利用率   ● 帮助用户发现他潜在喜欢的内容 2、怎么解决:推荐系统 推荐系统:发掘用户(user)集合与物品集合(item)之间的语义关系,为用户生成最相关的Top-N 推荐系统的核心是利用机器学习的方法,来帮忙做筛选跟排序。 推荐系统的核心算法:可以根据用户画像,内容画像和情景信息,计算用户对内容感兴趣的概率P(y|xu,xi,xc) 3、具体的解决办法 推荐系统架构&流程 推荐系统主要分为:召回,排序 两部分 召回:寻找与用户相关的Top-N的内容,包括多种召回手段 排序:在候选集里,找到最合适的top-N,主要分为粗排与细排两...
机器学习 12-20 评论已关闭

新户冷启动:推荐冷启动

背景 针对新户,怎么快速的找到用户喜欢的兴趣,做个性化推荐,冷启动很重要。 总结了一下现在可以做的一些冷启动的手段。 具体做法
机器学习 12-12 评论已关闭

先验概率与后验概率

背景 使用topic召回的时候,先要做平滑,发现对先验概率理解不够,查资料补充了一下知识,特此记录。 具体说明 -什么是先验概率与后验概率 先验概率与后验概率,简单的说:先验概率是由因求果中的因,而后验概率,由果寻因中的因。 先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率.  先验概率通常是经验丰富的专家的纯主观的估计。后验概率可以根据通过Bayes定理, 用先验概率和似然函数计算出来. 后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。 先验概率和后验概率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概...
机器学习 12-07 评论已关闭

置信度,置信区间,计算方法

背景 在平时做实验的过程中,使用ab平台去分配流量,大家其实对分配多少流量"合适",并没有谱。一般都是靠经验拍一个值,特此整理一下,如何知道,我的流量够不够。 具体描述 在统计学里, 我们一般使用 "抽样" 来 预估 "总体"的情况。做这个事情,可行的前提是: 抽样样本  能够 很好的拟合  总体的情况。即我们通常说的具有代表性。 统计学里用 置信度 ,来衡量 样本实验 与  总体用户的  "相似情况"。 为什么要用区间估计? 一个例子:你打枪打10次,你可以得到一个平均值,比如是8.那么总体的期望是不是就是8呢?显然不是,因为你再打10次可能就是7了,那么总体的期望就...
机器学习 12-04 评论已关闭

FFM(Field-aware Factorization Machine)

FFM:基于域的分解机模型 符号说明: x表示样本特征数据 y表示样本目标数据 第i个训练样本为(xi,yi),为了方便也可以用x=xi表示第i个样本 1.1 线性模型 C1表示x中非零元素索引的集合 1.2 二次多项式模型 C2表示x中非零元素索引的集合 1.2 分解机模型(FM) W是二维矩阵,表示第i行向量,长度为k,k是自定义参数,也称之为隐向量 1.3 域分解机模型(FFM) 因为前面的一次线性项容易解,则可以写成另外一种形式
机器学习 12-04 评论已关闭