科普篇:一篇文章推荐给你,到底经历了哪些算法?

背景 这是一篇科普文章,科普从在feed流刷新了一下之后,推荐给你的文章,到底经历了哪些算法。这些算法在哪些环节做了什么事情。 此文章不断更新,2018-12-10 初稿。 具体说明 1、内容安全篇 一篇内容,在作者完稿后,点击发送,会送到平台去审核。而我们知道,一个”安全&合格”的内容才能有机会推荐给用户,为了保证内容合格,被提交的内容刚开始就会经历以下”安全&合格”模型: ①色情模型:判断文章不是色情内容 ②广告模型:判断文章不是广告内容 ③敏感内容模型:判断文章不涉及到反动等敏感内容 ④消重模型:判断文章不是抄袭的内容 ⑤反感内容模型:判断文章不是用户讨厌的...
机器学习 12-10 评论已关闭

生态产品价值观

年幼无知时,看到过一句话:三流企业做产品,二流企业做平台,一流企业做标准。这些年不管是做O2O,还是做内容,觉得平台之上,应该是一个更为宏观的东西:生态。为什么要写这篇文章,原因有二: 第一,互联网以强大的连接能力,连接了各种关键节点(连接人与信息,人与人,人与服务,人与热点等),这种强大的连接是充满魔力的,但是连接的出发点是人,人的精力是有限的,连接是随机且混乱的。一个生态系统,想要生生不息的运转,就必须拥有连接的整合与分配能力,如何分配,参考依据是什么? 第二是,一个生态内,很多时候往往裁判与运动员的身份在企业是并存的。有所为有所不为。平衡利益固然关键,但是必须有一些坚守本心的东西,何为善,...
产品用研 10-31 评论已关闭

随机选择中的最优解

机器学习 10-26 评论已关闭

内容质量的客观评价方法

背景 简单说,就是在做内容推荐的时候,内容质量是非常关键的一个问题,但是内容质量又是一个比较”虚”的主观的东西。 不能说一个菜谱就一定比一篇论文质量低,在这种评价里,是没有标准的。 但是我们的的确确存在一些内容比较的方法,比如语句通顺,语法正确,没有错别字等等。 简单的整理一些,可以客观用来比较内容质量的标准与方法。   具体说明 一个内容,不管其主题,立意如何,需要通过文本,图片,视频表达出来,表达的结构形式中,必然有一定的逻辑条理。 特征 表现 字 没有错别字,尽量减少无意义的生僻字 句 句子通顺,上下连贯,语法正确,标点符号,语气准确 图 大小适中,突出重点,图片清晰可见,与...
产品用研 10-18 评论已关闭

机器学习之特征工程

背景 整理一下特征工程相关的知识。吴恩达曾经说过:”特征工程不仅操作困难,耗时,而且需要专业领域知识。应用机器学习基本上就是特征工程”。坊间也有流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程涉及到的知识非常多,慢慢整理。 初稿:2018-12-13 具体说明 1、什么是特征工程 当我们从大量数据中去学习的时候,原始数据需要经过抽象,总结,处理才能更好的更好的表达,方便我们后续的学习。一般我们有两种对原始数据的表达学习的方式: 第一种是特征学习,又叫表示学习或表征学习,模型自动对输入的原始数据进行学习。常见的比如深度学习。 第二种是特征工程,主要指对于数据的人为处理...
机器学习 09-25 评论已关闭

如何去面试一个人?

背景 思考,如何科学的挑选出合格的候选人。 面试候选人,在短短的半个小时到一个小时中,如何对一个候选人做出合理的判断,打分,根据网上的文章跟自己的实践,简单的总结一下。 具体描述 1、招聘需求:对候选人评价模型的基础,从需求出发 2、匹配度判断:专业知识,专业技能 3、能力之外:价值观,认知,品质,动机,产品观 4、候选人诉求: 合理的预期   先说第一点,招聘需求,一般公司的jd上都会有比较详细的对此招聘方向的技能,能力要求说明。我比较讨厌的是面试官都没有看过自己招聘方向的jd,就直接面试,有时候觉得候选人不太合适,其实是互相浪费时间。知道自己想要什么样的人,你是怎么对外表达的,是很关键的。 招聘jd是企...
产品用研 09-20 评论已关闭

衡量用户价值的方法

背景 提供服务,获取用户,留存用户,变现。如何衡量不同的业务,不同的商业模式,不同的渠道用户的价值?   具体说明 1、ARPU   每用户平均收入(Average Revenue Per User)   一个时间段内从每个用户...
产品用研 09-04 评论已关闭

判别模型与生成模型

背景 监督学习方法可分为两大类,即生成方法与判别方法,它们所学到的模型称为生成模型与判别模型。 判别模型:判别模型是学得一个分类面(即学得一个模型),该分类面可用来区分不同的数据分别属于哪一类; 生成模型:生成模型是学得各个类别各自的特征(即可看成学得多个模型),可用这些特征数据和要进行分类的数据进行比较,看新数据和学得的模型中哪个最相近,进而确定新数据属于哪一类。 具体说明 1、判断模型与生成模型判别方法 判别方法:由数据直接学习决策函数Y=f(X)或条件概率分布P(Y|X)作为预测模型,即判别模型。判别方法关心的是对于给定的输入X,应该预测什么样的输出Y。 生成方法:由数据学习联合概率分布P(X,Y), 然后由P(Y...
机器学习 08-20 评论已关闭

常用函数导数整理

背景 整理一下常见函数的导数。 具体说明 1、什么是导数 一个函数在某一点的导数,描述了这个函数在这个点附近的变化率。 导数的本质是通过极限的概念对函数进行局部的线性逼近,当函数f的自变量在一个点X0上产生...
机器学习 08-20 评论已关闭