如何"用好"一个特征

产品用研 07-10    

推荐系统里的小小小问题记录

背景 陆陆续续在推荐系统里,有一些小的问题点,记录一下。 具体描述 问题1:相同的数据,距离计算是否一致,相似度计算不准的问题 问题2:Faiss内积跟cos相似度不一致是不是问题 问题3:Topic等聚类中心随着时间漂移,重新聚类id不对应问题 问题4:MMoE模式跟单模型多目标比较的问题 问题5:随着时间迁移,聚类分布改变,重新聚id不一样,不聚聚类中心改变,相似度降低。怎么解决?
生活琐事 05-29    

关于业务ROI计算的讨论

背景 互联网产品最终都要回归到商业价值,为资本家带来收益,才会有不断持续的投入。所以,如何衡量一个业务是否健康,是否应该持续投入,有几种基于ROI衡量的方式,记录一下。 ROI全称是return on investment,投资汇报率。 公式= 利润/投入= (收入-成本)/ 成本 (关于这个公式的解读,也是众说纷纭,此处不讨论) 具体说明 一个企业经营,如果ROI要变大,要么加大分母,就是增加收入,要么减少成本,分母少减和分子变小。 ROI1:毛利,只考虑业务自身成本,成本=增长买量成本+内容成本等 ROI2:净利润,考虑人工等成本,成本=ROI1成本+服务器成本+带宽成本+人力成本+办公房租水电管理费用等 ROI3...
产品用研 05-16    

信息流之内容策略

背景 对于所有的信息流产品来说,物料池(内容池)是推荐的最底层,是基础。一个优质,充满多样性的物料池,对内容消费,有事半功倍的效果。 简单来说,一个内容的一生主要经历以下几个系统:内容的创作系统,内容的加工链路,推荐消费互动。 一切对内容体系做的功,无非是改变内容的数量、结构。结构主要是指在不同特征上的分布。这篇文章,总结一下信息流里常见的内容策略。 具体说明 一、存量内容的"挑肥拣瘦""惩恶扬善",改善分布结构 在搭建起自己的物料池后,就需要对已经有的物料池基础,做一定的筛选,利用人的经验或者后验数据指标等,对内容做一定的筛选,提高推荐的效率。当然因为作者是内容的源头,有一些...
产品用研 05-15    

产品经理常用SQL函数整理

背景 不会写sql的产品经理,一定活的很艰难。 具体说明 1、left join on 后and 和 where 的区别 123456Table A left join Table B on Condition and Table A left join Table B on Condition where #在使用left jion时,on和where条件的区别如下: 1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。 2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。 2、group里面每个类型值取top n 123456789101112SELECT  * FROM (   SELECT     group_field, &nbs...
技术相关 04-06    

Pandas 常用函数整理

#文件地址 file='a.xlsx' #文件 #引入包 import pandas as pd 1、读写文件 #读取 data=pd.read_excel(file,sheet_name='sheetname') #读取excel data=pd.read_csv(file,sheet_name='sheetname') #读取csv #写入excel writer=pd.ExcelWriter(file) #适合写入多个sheet的时候,在to_excel里指定写入的sheet_name data.to_excel(writer,sheet_name='sheetname,index=None) #index=None 表示将会以数据本来的样子写入 writer.save() 2、查看基础信息 data.head(n) #查看前n行,n可以不填,默认读取前5行 data.tail(n) #倒序查看n行,n可以不填,默认读取前5行 data.describe() #概要与描述性统计,包含计数,均值,标准差,最大值...
技术相关 04-06    

Excel初级工程师查公式手册

背景 整理一下,作为一个excel初级工程师,一些必须具备的公式。 具体说明 1、excel 数字类型,超过11位会变成科学计数法,超过15位后会变成00 解决办法:如果是11位以内,重新设置单元格格式就可以...
技术相关 03-19    

数据抽样方法总结

背景 从总体样本中,抽一批数据,不管是训练模型,还是查case追问题,还是分析特征,正确的抽样姿势,对得到的结论十分重要,科学合理的抽样姿势,有助于避免我们犯错误。 本文重点介绍数据抽样方法。 具体说明 一、什么是抽样 抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。 二、为什么抽样 1、省时间 2、省资源 3、分析起来方便,容易突出问题 三、抽样的步骤 1、抽谁:确认总体,明确定义目标群体 2、去哪儿抽:获取群体名单列表范围 3、怎么抽:确认抽取的科学方法 4、抽多少:算清楚抽取样本的量,有代表,能处理 5、开抽:抽取哪些信息,操...
机器学习 03-18    

作者补贴:劣币驱逐良币

生活琐事 02-16