在欢乐谷女票让我讲——新闻的个性化推荐

6681 阅读 0 评论 6 点赞

作者介绍

小诺

百度出身的一名策略产品经理。

做过搜索，BI，画像，个性化推荐。

经历丰富，热爱生活。

hi~大家好！

好久不见，我是你们的老朋友小诺。

今天从我的经历出发，来给大家分享下新闻是如何做个性化推荐的吧~

今天的文章主要分5部分。

前言

一、内容画像

二、用户画像

三、召回和排序

四、推荐策略

前言

又到小长假，今天是假期的第一天。小诺要带女票去欢乐谷玩。

他们一路有说有笑，终于来到了欢乐谷。

女票是第一次来，特别的开心，买了一个小鹿头环，然后拉着小诺四处玩。

在旋转木马，女票让小诺给她拍了好多照片，女票开心极了。

然后两人去了漂流，这是小诺最喜欢的项目之一，他俩被岸上的人用水枪一顿滋，头发湿了，衣服也湿了一片。两个人哈哈大笑。

之后他们来到了大摆锤，女票有点恐高，但却很想玩，小诺说“我陪你啊，我陪着你就不怕了。”女票说好。

两个人把东西放在储物柜，就上去玩，大摆锤一顿操作结束，女票已经花容失色，快哭了。小诺搀着女票，收拾东西，慢慢往外走。

他俩是倒数第二对儿下来的，在他们后面，还有一对儿，女生已经吐了，男生紧张的照顾着。

小诺搀着女票休息了一会，然后两个人来到了大草帽。排队结束，女票身体已经无恙，两个人又开心的玩。

从大草帽离开，女票大叫“啊！我的小挎包不见了！”

小诺说“是你生日我送你的那个包包吗？”女票说“对呀！我一直挎在右边。会不会被人偷了呀！”

小诺安慰女票说“应该不会的，你别着急哈，我想一下。”然后陷入了沉思。

1.我先捋一下我们玩的项目的顺序，旋转木马-漂流-大摆锤-大草帽。

2.旋转木马我给她拍了好多照片，我先看下那时她是否带着小挎包，看了下那时候还有。

3.接下来是漂流，但那时没顾上拍照，要怎么确定挎包在那个时候有没有呢？

小诺看了下女票衣服的右侧，右侧湿了一片，但水渍中间有一片区域是干的。

也就是说漂流的时候小挎包也是在的。

4.然后去的是大摆锤，大摆锤要求把东西都放在储物柜，最后走的时候，只剩下我们和另一对情侣。

刚好我们的东西放在一个格子里，可能那时候我们忘记拿了。

5.我得先给园区说一下，发个寻物广播，然后返回大摆锤问下工作人员。

小诺赶到大摆锤，向工作人员说明情况，工作人员找了一通，确实没有粉色小挎包。

工作人员回想说“刚才那对情侣，女生吐得厉害，男生就拿着东西，好像是有一个粉色小挎包，男生说要带女生去医务室。”

小诺和工作人员道谢，然后看了看时间，距离离开大摆锤已经过了有40分钟。小诺赶紧去园区医务室。

到了医务室，小诺说明情况，医生说确实有一对情侣来过，女生休息了会，喝了点水。男生问女生要不要吃点东西，女生说好，俩人5分钟前刚走。

小诺道谢，心里想，从地图上看，餐厅都在西边，自己一路走来，经过7家可以吃东西的地方。

5分钟前俩人刚走，正常人的步行速度是1m/s，女生不太舒服，走的可能比正常速度要慢。

那么两个人应该是在200-300米以内的餐厅，在这个范围内有2家餐厅。

现在快12点了，应该像医生说的那样他们去了餐厅，所以自己一路走来没有迎面遇到。

那我就从最近的这家开始找。

北京欢乐谷地图

小诺去了最近的这家餐厅，果然看到那对情侣坐在里面，男生旁边还放着那个粉色小挎包。

小诺想：可能女生难受，男生紧张，俩人都没注意拿错了东西。

于是就上前说明情况，女生一看，男生拿的小挎包果然不是自己的，小诺主动说了包内有的东西，核实了身份。

男生和女生连连向小诺道歉，说仓促中拿错了东西。

小诺说没关系，然后打电话叫女票也过来餐厅吃饭，同时告诉园区挎包已经找到。

不一会，女票就来了餐厅，四个年轻人便一起吃饭。

互相介绍了一下，小诺和女票都是产品经理。男生叫小涛，是java开发，女生叫小贾，是运营。

因为都是同行，四个人聊得很投机。

小涛说“小贾刚换了工作，去到一个做新闻资讯的部门做运营，需要懂一些个性化推荐的原理，之前她没接触过，我也没接触过，我们正在发愁。”

小诺的女票说“诺诺就在做新闻的个性化推荐，可以让他说一下呀！”女票眨着大眼睛看着小诺。

小贾说“真的吗？那太好了！”

小诺说“好，我想一下怎么说。”

关于个性化推荐，我的理解是：按照每个人的喜好，在合适的时间，合适的场景，把合适的内容，以合适的形式呈现在用户面前，满足用户的需求。

那么这里就涉及到了三部分，用户——算法和策略——内容。

下图是一个简单的新闻推荐组成部分。

新闻推荐简图

我们的“人”和“物”都是复杂的，需要用我们理解的符号去把他们描绘出来，让我们的程序理解。

一、内容画像

1.1新闻文章来源

做新闻，我们首先要有文章源。文章的来源，一般有三部分：

①机器在各个资讯网站抓来的文章。

②公司编辑自己写的文章。

③入驻作者写的文章。

1.2内容分类体系介绍

有了文章，我们需要把文章分门别类的放在一个内容池子里。

那么该如何分门别类呢？这里就涉及到了内容分类体系。

在我们逛淘宝的时候，会有各种物品的分类，比如家居，比如图书，比如衣服。

同样的，文章也会有分类。当我们打开一个资讯app，比如头条吧，就可以看到导航栏有“军事”“历史”“时政”等等。

京东和头条的前台分类

这是我们在前台可见的，其实在它的背后，有一套庞大的分类体系，下面我们来说一下。

分类体系一般有三种形式：结构化，半结构化，非结构化。

①结构化的分类：层级分明，有父子关系，分类间相互独立，比如科技-互联网-人工智能。

②半结构化的分类：具有结构化的形式，同时也有一些不成体系的分类，我认为知识图谱算是一种半结构化的分类体系。

③非结构化的分类：分类比较灵活，没有明确的父子关系，如独立的关键词标签。

结构化分类体系

知识图谱

1.3常见问题和分类原则

小涛说“看来这个分类就和数据一样呀，数据也有结构化，半结构化和非结构化。”

小诺说“可以这么理解。”

小贾说“那我们该如何建这个分类体系呀？会不会遇到什么问题？”

小诺说“我先来说回答第二个问题，我曾见过一些文章的分类体系，他们存在以下的问题。”

①一级分类=二级分类的情况：如美食，宠物的一级二级分类名称相同。

②二级分类不够全或分的较粗：如历史被分为“古代史，近代史，现代史”。

③一些分类较杂：如“科学探索”分类下可能各种内容都有。

④一些二级分类归属不够合适：在有一级分类“职场”的情况下，“职业培训”被放在了“教育”。

⑤一些文章没有好的归属，如办公软件的学习类文章没有归属。

⑥人工智能分类下的文章有一些是玩偶。

女票说“真的是哎！虽然在新闻的首页我没有遇到，但是在xx新闻的科学探索频道，就看到了各种各样的文章，看来这个分类做不好，真的影响用户体验呀。”

小诺说“对的，所以在做分类的时候我们会遵循一些原则，这里我来说一下结构化分类体系搭建的原则。”

①相互独立：各分类间内涵应当相互独立。

②完全穷尽：各分类应当完全穷尽列举，下一级分类可以组成上一级分类的全集。

③命名应当短小易懂。

④命名应当准确无歧义。

⑤命名具有内容代表性。

⑥分类粒度应当适合，不能较粗或较细。

⑦每个分类下三级分类不能过于庞大。

⑧释义应当相对简单明了，不应长篇大论太过专业。应当从c端用户角度考虑，使标注的人可以一下子理解分类的内涵，而非必须具有专业知识才可分辨，否则不符合用户思维习惯。

1.4构建分类体系

小诺刚说完，凑过来一个男生和一个女生，他们自我介绍是北京邮电大学的应届生，一个叫小豪，一个叫小欣。他们也想做产品经理，听到我们在讲个性化推荐，很感兴趣，就想一起过来听听。

小诺说欢迎，然后继续往下讲。

那么接下来我们该如何去做分类体系呢？有两个思路：

⑴让程序根据站内用户浏览记录，抓取出浏览比较多的一些关键词，我们按照这些关键词去整合分类。

但从实际操作来看，用户的兴趣分层是（一二三级）分类——主题——兴趣点——关键词的层级，举个例子：

科技（一级）——互联网（二级）——人工智能（三级）——智能办公（主题topic）——语音助手（兴趣点poi）——小爱（关键词）。

如果我们根据关键词往上汇合分类，会比较难实施。

⑵人为的定义出一二三级分类。具体操作步骤如下：

①了解每个一级分类内涵，查阅大量相关网站，如搜索历史垂类网站，查看网站内容和分类。

②根据网站分类，逐一列举，从日常用户兴趣角度出发列举三级分类粒度的分类词。

③从三级分类合并二级，以及从二级分类拆分三级分类双向进行整理。

④对分类给出释义和边界，以便标注人员区分。

小涛问“那么我们如何保证三级分类下的文章充足？以及如何保证人工分类的准确性呢？”

小诺说“这是两个好问题。”

我们采取了两个措施：

①针对问题1：我们把三级分类词，如“人工智能”放到研发的文章召回系统，进行搜索，可以看到以“人工智能”为关键词可以召回的文章内容及数量，以此来判断此三级分类是否文章充足，进行调整。

②针对问题2：因为一部分的文章首先要经过标注团队的人工标注，在标注的时候，标注员会反馈具体某个三级分类存在的问题以及不合理性，此环节产品，运营，编辑都会介入，对于不合适的三级分类会进行修改。

1.5人工标注和机器学习

当分类体系完成后，接下来是标注环节。

小贾说“啊！这个我知道的。公司编辑发的文章，在发布前，会选择对应的一二三级分类。

站内作者创作的文章，会经过标注员的标注，标注为的是选择文章对应的分类，也会根据标准标注文章是否涉“黄赌毒”涉“政”等，还会标注文章的时效性。”

小诺说“说得对！这里提一下，运营部也会设置质检小组，对编辑和标注组的标注结果进行抽样检查。”

小欣问“标注员会对所有文章都进行标注吗？”

小诺说“这个我来说一下。”

标注团队标注一定数量的文章，算法团队的工程师会用算法对人工标注的样本，进行有监督的机器学习，把剩余的文章用程序给它标上对应的分类。

负责这部分工作的工程师，会用多种方法来对文章进行机器学习，比如有ABC三种。用三种方法对新的文章样本进行分类。

然后让标注员对算法标分类的文章进行校验，从而得出三种方法为文章分类的准确性，公式如下：标注员分类和机器分类相同的文章数量/总的文章数量=机器标注准确率。

如：87/100=87%。

之后算法工程师会对标注不准确的文章继续进行学习，不停的迭代优化算法。

针对外部抓取的文章，算法工程师也会用这套方法对他们标记分类。到这里，我们的文章就可以分门别类的被放在内容池的不同地方了。

小诺说完后，大家满脸期待，开头的疑问都已经云开雾散。小诺喝了口水。

这时旁边的一对中年夫妻坐了过来，大叔是一名数学教师，平常很爱看新闻，对新闻的推荐也很好奇，听到小诺刚才的讲解，兴趣更甚了，于是便凑了过来。

小诺半喜半忧，喜的是他没想到，有一天会在游乐场给不认识的一群人讲个性化推荐，因为他入门做策略pm经历了无数坎坷。忧的是他们大伙都没接触过个性化推荐，尤其是中年夫妇，如何用大家都懂的语言，来为大家解释，让大家懂基本的原理，而不是纸上谈兵的方法论或是太专业复杂的知识。这是一个问题。

二、用户画像

2.1什么是用户画像

当有了内容的画像，我们也需要用户的画像。那什么是用户画像呢，我认为是对用户这个客观实体的描募。

比如我对自己进行一个总结：男，175cm，65千克，产品经理，26岁，月薪25k，无车……等等。

这就是我的用户画像。

那么为什么做推荐需要用户画像呢？是因为只有当我们了解了一个人，才能把她最想要的给她。

这时小诺看看女票，女票一脸嫌弃，说“净说没用的，快给大家讲用户画像吧~”

用户画像

2.2用户画像要基于业务存在

做用户画像第一步要基于业务，也就是说用户画像是要对具体业务场景来服务的。

比如个性化推荐，精准营销，数据分析，活动运营等等。

所以第一步需要了解业务场景以及各岗位的同事对画像的需求。

2.3搭建用户画像体系

在了解之后，我们会开始搭建画像特征的体系，这里说明一下，特征是一点点获取、建立和利用的。但特征体系在一开始需要搭建出来，尽可能的囊括各业务场景的需要。

虽然某些特征可能在初始阶段还没有建立，但需要根据业务需求，先列举出来，以便在做画像平台功能框架搭建的时候，不会因为没考虑到某类特征，而使后期画像平台的功能框架无法兼容。

以下我从：基本信息，兴趣爱好，行为特征，社交和心理，消费与模型这5个方面做了一个简单的新闻资讯用户画像体系。

一般来说在建立特征体系的时候，应该包含以下表头：一级特征分类，二级特征分类，特征描述，特征字段，特征值类型，特征来源，特征时效，最近更新内容，特征示例。

资讯用户画像体系

2.4画像特征介绍

用户画像主要有两块：事实特征和模型特征。

事实特征是用户的基本信息，以及他在app内产生的行为：如用户的设备信息，地理位置，主动填写的性别，年龄，以及在客户端浏览文章中产生的点击行为等等。

模型特征是我们基于用户的事实特征，制定一些规则建立的：如用户流失等级，用户消费等级，用户满意度等。

从时效性上来划分，画像特征分为长期，短期，实时。

长期特征如：用户基本信息里面的一部分特征，性别，年龄，生日，账号，设备等等。

短期特征如：用户的兴趣爱好和行为特征，当然这里要说明用户的兴趣爱好也分为长期和短期，但这个是相对的，兴趣爱好仍然被我放在短期特征内。

实时特征如：用户的实时地理位置，实时网络状态等等。

大叔说“确实是，我一直爱看时政和军事，最近因为一个事件，开始关注财经了。”

小诺说“是的，这就是区分长期画像和短期画像，长期兴趣和短期兴趣的意义。”

2.5画像特征获取

小欣问“那么画像的特征数据要怎么获取呢？”

小诺接着讲。

①事实特征里的一部分，是我们通过用户主动填写或埋点来获得的，比如用户主动填写的性别，比如埋点获得的用户浏览时长。

②另一部分是根据业务指标来对事实特征进行复合计算，如：用户文章平均阅读时长=用户阅读的总时长/用户阅读的总文章数。

女票问到“如果用户没有填写某些信息，或者我们获取不到怎么办呀？”

小诺说“你真聪明~比如某个用户没有填写性别，这种情况在新用户中较为常见。”

一般我们有两种方式。

①引入第三方数据补全用户画像特征。

②算法工程师会把填写了性别的用户作为样本，按照男女分别进行有监督的机器学习，从而对性别特征不完整的用户进行模型训练，

得出这部分用户的性别，但这里是一个概率值，比如A用户性别：男70%，女30%。

小诺说“说完了事实特征，我们来说模型特征。”

模型特征则需要我们去制定一些规则，为我们的业务场景服务，比如用户流失等级，运营可以针对不同流失等级的用户上不同的运营策略。我们规定：

3天未打开新闻客户端的用户，流失等级为A。

7天未打开新闻客户端的用户，流失等级为B。

15天未打开新闻客户端的用户，流失等级为C。

30天未打开新闻客户端的用户，流失等级为D。

60天未打开新闻客户端的用户，流失等级为E。

90天未打开新闻客户端的用户，流失等级为F（流失了）。

2.6用户画像平台

搭建好用户画像特征体系之后，我们需要有个可视化的平台，用户画像平台。在功能上一般应分为四部分。

①群体画像：我们可以通过特征圈选人群。比如用性别这个特征，分男女去看，不同的用户群体，喜好的文章一级分类有什么区别。

②单用户画像：当我们输入用户的id，可以看到这个用户所有特征的详细信息，同时也需要有个用户画像丰满度的总评分。

③场景赋能：比如我们可以圈选一部分目标用户，对他们进行广告投放，看这批用户后期在每一个环节的转化。

④权限和特征管理：画像平台应当对不同岗位的员工设置不同的权限，同时也需要对用户画像的特征进行管理，支持增删改查的操作。

小诺问“大家对用户画像也都了解了吧？”

大家点头。

小豪期待的说“接下来是不是要讲算法和策略了。”

小诺说“是的，但大家不用担心，主要给大家讲下原理，太深奥的不会讲。”

大家安心的点点头。

三、召回和排序

3.1什么是召回

首先我来解释一下什么是召回，通俗易懂的理解就是，根据用户的一些“条件”把符合这些“条件”的文章从广阔的内容池里召唤出来，放到一个小的池子里。

3.2文章的信息抽取

在召回前我们会做一些准备工作。

第一步是信息的抽取，文章是由html语言编写的，有<title>有<head>有<body>，是成对出现的，都是半结构化的数据。

程序对文章进行信息抽取的时候，也是按照这样的结构，用深度优先遍历，按照栈结构先进后出的特点来抽取的。

深度优先遍历

这里我来说一下，如果是学计算机的同学，在《数据结构》这门课程中会学到。

如下图是一个树结构，我们需要把每个节点都走一遍，“深度优先”顾名思义就是纵向最深，那么我们按照从左到右深度优先的规则，走一遍。

得出的顺序就是：A-B-E-F-C-G-D-H-I。

那么为什么抽取文章信息的时候要用深度优先遍历呢？

就是因为上文提到的文章的结构是有标题有正文，在html语言中代表标题和正文的标识在每个部分的前后出现，相互一层层嵌套，采用深度优先遍历，抽取出的信息结构不会混乱。

树

抽取后，程序需要识别出哪些是正文，哪些是广告，对于我们人来说，可以轻易辨别，但是对于程序而言，需要一些规则去让程序识别出来。

比如我们用投票方法来对文章文本块进行打分。

规定文本块的位置：在页面中间的为3分，在页面左右两端的为1分，在页面底部的为2分。

再比如我们规定文本块的长度：不同的长度给不同的分值。

3.3文章的分词

抽取信息之后，我们要对文章内容进行分词，对于我们人来说，我们可以根据学习经验对文本进行断句，但机器却并不知道。

所以这里我们也有一些方法，下面来介绍3种。

①字典-最大前缀树

首先我们有一个字典集，这个里面包含我们所有的词语，当机器“读”一句话的时候，例如“个性化推荐真好玩”

按照字典里面存在的词语去从左到右进行匹配，“个性”是一个词，做个记录，继续往下。“个性化”又是一个词，再做个记录。“个性化推”不是一个词语，继续向下“个性化推荐”是一个词语。

直到找到最大的词组。

②N-gram分词

这个N代表的就是对这句话用几个字去拆分，比如N=3，原句就会被拆分为“个性化”“性化推”“化推荐”……。

③基于统计学的分词

如贝叶斯，根据语料库的历史信息，分析当一个汉字出现时，另一个汉字出现在它后面的概率，从而进行分词。

字典-最大前缀树

贝叶斯公式

3.4文章的过滤与排重

分词后我们会进行一波过滤：敏感词过滤，低质过滤，排重。

敏感词过滤，会根据既定的一些敏感词列表，把包含这些敏感词的文章过滤掉。

低质过滤，会根据机器学习的历史低质文章算法，加标注人员标注的低质文章，对文章进行过滤。

排重，这里要对相似度较高的文章进行去重。我们来介绍两种方法：

①I-Match算法

假设有A和B两篇文章，分词后，我们首先统计出两篇文章的高频，中频，低频词。

去掉高频和低频词。

比较A和B两篇文章中频词汇表的相似度，卡一个相似度的阈值。

②Shingle算法

假设有A和B两篇文章，A是：我困了晚安我睡了，B是：我累了晚安我睡了。

shingle会把A文章拆分为“我困了，困了晚，了晚安，晚安我，安我睡，我睡了。”。

B文章拆为“我累了，累了晚，了晚安，晚安我，安我睡，我睡了。”

两篇文章的相似度=重复词汇量/（A文词汇量+B文词汇量-重复词汇量）=4/（6+6-4）=50%，卡一个相似度的阈值。

对相似度达到阈值的文章进行过滤，仅留一篇，比如按照发表的先后顺序留，或者按照文章质量的判定留等等。

** **

3.5文章的召回

接下来我们说召回，一般来说，我们会有多路召回，每一路召回的文章都有它的合理性。

①基于人口属性的召回

如根据用户的地理位置召回的文章。

②基于用户兴趣的召回

如根据用户对各分类文章的兴趣程度进行召回。举个例子：

我们选取用户近7天内点击的文章所属的三级分类下的文章，按照当下点击数由高到低的选取30篇文章进入这路召回的集合。

③基于用户行为特征的召回

如根据用户在站内的行为特征来进行召回。举个例子：

我们规定用户对文章有以下行为就代表了用户的行为特征，对某篇文章点赞（1分），评论（2分），转发（3分）。

我们选取出这个用户近7天内，得分最高的5篇文章，所在的三级分类下的30篇新文章，进入这路召回的集合。

④基于协同的召回。

空间向量模型

在说协同之前，我们先介绍一个空间向量模型。

我们把每个用户表达成了一个个的标签特征，我们想象每个标签就是一个坐标轴，每个特征的分值，就是这个特征在坐标轴上的长度。

这样我们可以在一个多维坐标轴上，用一个向量来描述一个用户，代表不同用户的两个向量的夹角越小，就表示两个用户越相似。

两篇不同文章的相似度计算也是一样。具体的公式如下：

余弦相似度公式

协同

①基于用户的协同

比如A用户和B用户向量化后很相似，那么我们认为B用户喜欢的东西，A用户也会喜欢，于是我们把B用户喜欢的东西推荐给了A用户。

②基于内容的协同

比如A用户喜欢甲文章，甲乙文章向量化后很相似，那么我们认为乙文章A用户也会喜欢，于是我们把乙文章推荐给了A用户。

③基于整体的协同

比如有ABC三个用户，A用户喜欢甲乙文章，B用户喜欢甲乙丙文章，C用户喜欢甲文章，于是我们认为喜欢甲文章的用户都会喜欢乙文章，于是把乙文章推荐给了C用户。

3.6文章的排序

每路召回形成的是一个基于每个用户的文章集合，我们需要把多路集合作为输入集灌入到我们的排序模型中。

排序模型会通过模型对用户和文章的众多特征，每个特征的权重进行计算。

常用的排序模型有LR（逻辑回归），GBDT（决策树），FM（因子分解机）等以及他们的复合变种。

经过排序之后，对于每个用户，会输出一个新闻的信息流按照排序的规则，由高到低。

小诺说“这一块涉及到了一些技术，大家可能一时掌握不了，但最主要的是理解整个的过程就好。”

大家点点头。

小诺说“那我们来看看有意思的策略吧！”

四、推荐策略

下面我们来说一下重排序，也就是上产品策略的阶段。

4.1常见策略

我接触过的部分策略如下：

①新用户兴趣试探策略

②兴趣打散策略

③本地化推荐

④网络状态推荐

⑤分时段推荐策略

⑥搜索行为策略

⑦负反馈策略

⑧分场景策略

⑨热点事件策略

⑩通勤场景策略

⑪季节性策略

⑫流失召回策略

4.2策略的目标

在工作中，我们都会有一个目标，为一个目标服务。比如新闻的个性化推荐看重，uv点击率，次日留存率，用户的平均阅读时长等。

对于新用户来说，我的理解是要尽快发现他们的兴趣，把他们留下来，然后提升点击。

对于老用户来说，我的理解是要发掘他们更多的兴趣，提升他们的点击和阅读时长，减少流失。

4.3策略案例

这里来分享1个案例：分网络状态推荐策略。

需要说明的是，这里只进行思路简述，实际策略方案会比这个更加严谨和复杂。

4.3.1猜想与调研

猜想

从实际体验出发，当我们在无线网络下，会更肆无忌惮的去点视频图文观看，而在有线环境下会更少一些。

如果用户的行为符合这个猜想，那么在不同的网络状态调整不同类型文章的占比，可以提升用户的点击。

调研

为了验证这个猜想，我们可以做一个竞品调研。比如我们的新闻客户端是A，调研BCD三家新闻客户端在有线和无线状态下，前100条资讯，首页信息流中纯视频的数量（广告除外）

假设我们得到的结果如下图。

我们发现竞品确实也做了这样的策略，那么我们需要做个ABtest来看下效果。

4.3.2实验设计

①网络状态

实验组和对照组按照要求处在不同网络状态下。

②人群划分

圈选20w人群，多维度均匀选取等量分为4组，使4组用户同质。

③变量控制

只有首页信息流视频出现的比例不同这一个变量。

④用户要求

每个组的5w用户，只有当此用户当日有分别在有线和无线网络下浏览新闻的行为，才会被计入统计。

对照组1：5w用户保持线上逻辑，有线和无线网络状态，首页信息流推荐视频比例相等。

对照组2：5w用户保持线上逻辑，有线和无线网络状态，首页信息流推荐视频比例相等。

（说明：AAtest，保证实验组和对照组的变化，不是由于人群包切分或其他因素造成不同。）

实验组1：5w用户在无线网络下推荐视频比例与对照组相同，有线网络状态下首页信息流降低5%比例的视频。

实验组2：5w用户在无线网络下推荐视频比例与对照组相同，有线网络状态下首页信息流降低10%比例的视频。

实验组3：5w用户在无线网络下推荐视频比例与对照组相同，有线网络状态下首页信息流降低15%比例的视频。

4.3.3实验结果评估

①观测指标

各个分组（按日）：人均曝光量，人均点击量，人均点击率，人均阅读时长，次日留存率等。

②实验数据观测

亲自体验线上情况，同时观测每个对照组和实验组的数据表现。

③策略复盘

实验设计是否合理，是否引入了其他变量，策略是否在线上生效，数据是否符合预期，用户对此需求的真伪，策略总结。

到这里，小诺终于讲完了，他拿起矿泉水一饮而尽。大家也听的很尽兴。

小涛说“小诺，真是听你一席话，胜读10天书呀！这些都是你在现在的公司做的吗？”

小诺说“实践都是在现在的公司，但那些理论基础是在我出身的公司，它是做搜索引擎的。”

小欣说“这样啊！”

小诺却想起了很多往事，他想起了阳泉一中内那个人的画像，也想起了在科技园学习、交流与吃饭的那些快乐的日子。

他已经离开那里一年多了，还常常想起他的两位经理鼓励他的话。

女票推推小诺，说“又想起那个地方了吗？”

小诺对着女票笑笑，脸上充满阳光和向往“是啊。”

女票说“我们和大家一起吃饭吧~”

小诺说“好啊！”

午饭过后，大家一起在欢乐谷玩了个尽兴。晚上小诺和女票去了xx大厦的法餐厅，两个人一边吃着鹅肝牛排，一边看着楼下的夜景，开心极了。

女票说“三年了，你能做到自己喜欢的方向，真的为你开心。”

小诺说“多亏一直以来你对我的鼓励，做策略我真的很开心。今天的事情我也从来没有想过，有一天我可以在欢乐谷为那么多人讲我喜欢的策略。”

女票说“你是不是又想那个地方了？”

小诺笑笑……

突然，小诺感到有人从后面拍了一下自己，是同事小王。

小王说“快醒醒，还在睡午觉，策略方案出了吗？你看你都流口水了，又梦到妹子了吧？”

小诺两眼惺忪。

小王说“面对现实吧！做策略的哪来的女票！”

点赞(6) 打赏

本文分类：策略产品
本文标签：推荐策略
浏览次数：6681 次浏览
发布日期：2020-05-06 15:42:24
本文链接：http://shujurenclub.com/a/zai-huan-le-gu-nv-piao-rang-wo-jiang-xin-wen-de-ge-xing-hua-tui-jian.html

上一篇 > 产品汪如何向女票解释——淘宝push的个性化推荐
下一篇 > 电子商务中的——作弊与反作弊（上）

在欢乐谷女票让我讲——新闻的个性化推荐

评论列表共有 0 条评论

发表评论取消回复

在欢乐谷女票让我讲——新闻的个性化推荐

在欢乐谷女票让我讲——新闻的个性化推荐

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复