内容行业之2020

背景 历经了国内多个内容平台,跟很多人讨论、思考过内容行业的变局,直到抖音给出400多亿的创作者分成数据,未来的800亿,6亿DAU,直逼微信的数据,加上快手,西瓜,B站,让人开始重新思考,内容行业。 过去经历的一切,沉淀为经验,让我们安全,觉得自己真理在握。现在发生的一切,颠覆了认知,让我们慌乱,感慨一切沧海桑田。那些曾经引以为傲的,终将变成枷锁与牢笼。 一些新的认知 1、内容行业最大的变局来自:视频与推荐。 视频的消费门槛更低,适合更广阔的人群。 推荐的匹配质量更高,获取更长的时间。 2、社交网络里的直播发生的最早,音视频通信就是社交网络的直播。 所以微信是直播平台。 3、图文的...
生活琐事 09-20    

金老师分享一些感悟

背景 9月20日晚上,职人社邀请金叶宸做了一次分享,分享了关于他对视频业务的一些思考,从晚上八点开始,一共两个小时,听了分享,有一些新的收获,记录一下。 分享主题 第一部分是对视频行业的思考,...
产品用研 09-20    

如何"用好"一个特征

背景 大部分所谓的策略产品,日常工作里,都有一块非常重要的工作,就是特征工程相关的工作。 产品会寻找一个特征,然后定义清楚这个特征,然后挖掘计算,给相关方打上这个特征,评估一下特征的准召,然后把这个特征应用到业务上去,看看效果。 对于今天的推荐系统来说,已经有上亿的特征,简单的一个特征确实已经意义不大了,但是产品经理好不容易辛辛苦苦挖掘出来一个特征,必须得找一下存在感,单独加基于这个特征的召回也好,还是加入排序模型看看效果也好,或者是做一个物料池都是常见的手段。 不是说这些手段不对,今天重点讨论一下,怎么才算合理更好的用好一个特征。由于自身经历有限,多有不对的,多多讨论,指点。 ...
产品用研 07-10    

推荐系统里的小小小问题记录

背景 陆陆续续在推荐系统里,有一些小的问题点,记录一下。 具体描述 问题1:相同的数据,距离计算是否一致,相似度计算不准的问题 问题2:Faiss内积跟cos相似度不一致是不是问题 问题3:Topic等聚类中心随着时间漂移,重新聚类id不对应问题 问题4:MMoE模式跟单模型多目标比较的问题 问题5:随着时间迁移,聚类分布改变,重新聚id不一样,不聚聚类中心改变,相似度降低。怎么解决?
生活琐事 05-29    

关于业务ROI计算的讨论

背景 互联网产品最终都要回归到商业价值,为资本家带来收益,才会有不断持续的投入。所以,如何衡量一个业务是否健康,是否应该持续投入,有几种基于ROI衡量的方式,记录一下。 ROI全称是return on investment,投资汇报率。 公式= 利润/投入= (收入-成本)/ 成本 (关于这个公式的解读,也是众说纷纭,此处不讨论) 具体说明 一个企业经营,如果ROI要变大,要么加大分母,就是增加收入,要么减少成本,分母少减和分子变小。 ROI1:毛利,只考虑业务自身成本,成本=增长买量成本+内容成本等 ROI2:净利润,考虑人工等成本,成本=ROI1成本+服务器成本+带宽成本+人力成本+办公房租水电管理费用等 ROI3...
产品用研 05-16    

信息流之内容策略

背景 对于所有的信息流产品来说,物料池(内容池)是推荐的最底层,是基础。一个优质,充满多样性的物料池,对内容消费,有事半功倍的效果。 简单来说,一个内容的一生主要经历以下几个系统:内容的创作系统,内容的加工链路,推荐消费互动。 一切对内容体系做的功,无非是改变内容的数量、结构。结构主要是指在不同特征上的分布。这篇文章,总结一下信息流里常见的内容策略。 具体说明 一、存量内容的"挑肥拣瘦""惩恶扬善",改善分布结构 在搭建起自己的物料池后,就需要对已经有的物料池基础,做一定的筛选,利用人的经验或者后验数据指标等,对内容做一定的筛选,提高推荐的效率。当然因为作者是内容的源头,有一些...
产品用研 05-15    

产品经理常用SQL函数整理

背景 不会写sql的产品经理,一定活的很艰难。 具体说明 1、left join on 后and 和 where 的区别 123456Table A left join Table B on Condition and Table A left join Table B on Condition where #在使用left jion时,on和where条件的区别如下: 1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。 2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。 2、group里面每个类型值取top n 123456789101112SELECT  * FROM (   SELECT     group_field, &nbs...
技术相关 04-06    

Pandas 常用函数整理

#文件地址 file='a.xlsx' #文件 #引入包 import pandas as pd 1、读写文件 #读取 data=pd.read_excel(file,sheet_name='sheetname') #读取excel data=pd.read_csv(file,sheet_name='sheetname') #读取csv #写入excel writer=pd.ExcelWriter(file) #适合写入多个sheet的时候,在to_excel里指定写入的sheet_name data.to_excel(writer,sheet_name='sheetname,index=None) #index=None 表示将会以数据本来的样子写入 writer.save() 2、查看基础信息 data.head(n) #查看前n行,n可以不填,默认读取前5行 data.tail(n) #倒序查看n行,n可以不填,默认读取前5行 data.describe() #概要与描述性统计,包含计数,均值,标准差,最大值...
技术相关 04-06    

Excel初级工程师查公式手册

背景 整理一下,作为一个excel初级工程师,一些必须具备的公式。 具体说明 1、excel 数字类型,超过11位会变成科学计数法,超过15位后会变成00 解决办法:如果是11位以内,重新设置单元格格式就可以...
技术相关 03-19