机器学习

召回里的深度学习进化史

懒死我了,先写个标题
机器学习 01-21    

数据抽样方法总结

背景 从总体样本中,抽一批数据,不管是训练模型,还是查case追问题,还是分析特征,正确的抽样姿势,对得到的结论十分重要,科学合理的抽样姿势,有助于避免我们犯错误。 本文重点介绍数据抽样方法。 具体说明 一、什么是抽样 抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。 二、为什么抽样 1、省时间 2、省资源 3、分析起来方便,容易突出问题 三、抽样的步骤 1、抽谁:确认总体,明确定义目标群体 2、去哪儿抽:获取群体名单列表范围 3、怎么抽:确认抽取的科学方法 4、抽多少:算清楚抽取样本的量,有代表,能处理 5、开抽:抽取哪些信息,操...
机器学习 03-18    

UserCF家族:基于用户的协同过滤算法家族整理

机器学习 07-05    

ABtest系统后记:到底多少样本才算是够?

背景 之前写过关于google AB测试的论文,里面提到了google根据相关参数确定样本的问题,谷歌的论文提到他们有一个工具可以用来计算样本数,但是并没有对工具有具体的描述,最近仔细研究了这个问题,记录一下...
机器学习 12-24    

科普篇:一篇文章推荐给你,到底经历了哪些算法?

背景 这是一篇科普文章,科普从在feed流刷新了一下之后,推荐给你的文章,到底经历了哪些算法。这些算法在哪些环节做了什么事情。 此文章不断更新,2018-12-10 初稿。 具体说明 1、内容安全篇 一篇内容,在作者完稿后,点击发送,会送到平台去审核。而我们知道,一个"安全&合格"的内容才能有机会推荐给用户,为了保证内容合格,被提交的内容刚开始就会经历以下"安全&合格"模型: ①色情模型:判断文章不是色情内容 ②广告模型:判断文章不是广告内容 ③敏感内容模型:判断文章不涉及到反动等敏感内容 ④消重模型:判断文章不是抄袭的内容 ⑤反感内容模型:判断文章不是用户讨厌的内容 ⑥人工审核队列排序...
机器学习 12-10    

随机选择中的最优解

机器学习 10-26    

机器学习之特征工程

背景 整理一下特征工程相关的知识。吴恩达曾经说过:"特征工程不仅操作困难,耗时,而且需要专业领域知识。应用机器学习基本上就是特征工程"。坊间也有流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程涉及到的知识非常多,慢慢整理。 初稿:2018-12-13 具体说明 1、什么是特征工程 当我们从大量数据中去学习的时候,原始数据需要经过抽象,总结,处理才能更好的更好的表达,方便我们后续的学习。一般我们有两种对原始数据的表达学习的方式: 第一种是特征学习,又叫表示学习或表征学习,模型自动对输入的原始数据进行学习。常见的比如深度学习。 第二种是特征工程,主要指对于数据的人为处理提取,有时候...
机器学习 09-25    

判别模型与生成模型

背景 监督学习方法可分为两大类,即生成方法与判别方法,它们所学到的模型称为生成模型与判别模型。 判别模型:判别模型是学得一个分类面(即学得一个模型),该分类面可用来区分不同的数据分别属于哪一类; 生成模型:生成模型是学得各个类别各自的特征(即可看成学得多个模型),可用这些特征数据和要进行分类的数据进行比较,看新数据和学得的模型中哪个最相近,进而确定新数据属于哪一类。 具体说明 1、判断模型与生成模型判别方法 判别方法:由数据直接学习决策函数Y=f(X)或条件概率分布P(Y|X)作为预测模型,即判别模型。判别方法关心的是对于给定的输入X,应该预测什么样的输出Y。 生成方法:由数据学习联合概率分布P(X,Y), 然后由P(Y...
机器学习 08-20    

常用函数导数整理

背景 整理一下常见函数的导数。 具体说明 1、什么是导数 一个函数在某一点的导数,描述了这个函数在这个点附近的变化率。 导数的本质是通过极限的概念对函数进行局部的线性逼近,当函数f的自变量在一个点X0上产生...
机器学习 08-20