您所在的位置:首页 > 终端营销

热点推荐

最新推荐

36氪首发 - 今日头条推荐算法原理全文详解

编辑:互联网营销网时间:2019-05-31 17:40:00阅读次数:

摘要:今天,分配算法已逐渐成为几乎所有软件的信息平台,搜索引擎,浏览器,社交网络软件提供一个标准,但它也开始面对各种各样的问题,挑战和误解。2018年1月,标题算法高级建筑师博士。今天曹欢欢,首次今天的头条新闻算法的公开的原则,以推动行业整体审讯算法,算法建议。由于具有透明算法,以消除误解生活算法各界。据悉,今天的头条新闻信息推荐算法自2012年9月,第一版开发运行至今,经历了四个主要的调整和修改。目前服务用户的全球数百万。以下是曹欢欢的“今日头条算法原理”共享内容(授权)中所占的份额将集中在今天的头条新闻和内容推荐系统概述

\

如今,分布算法已逐渐成为几乎所有软件的信息平台,搜索引擎,浏览器,社交网络软件提供一个标准,但它也开始面对各种各样的问题,挑战和误解。

2018年1月,标题算法高级建筑师博士。今天曹欢欢,首次今天的头条新闻算法的公开的原则,以推动行业整体审讯算法,算法建议。由于具有透明算法,以消除误解生活算法各界。

据悉,今天的头条新闻信息推荐算法自2012年9月,第一版开发运行至今,经历了四个主要的调整和修改。目前服务用户的全球数百万。

以下是曹欢欢的“今日头条算法原理”共享内容(授权):?

中所占的份额将集中在今天的头条新闻的概述和内容推荐系统的分析,用户标签,评估分析,内容安全原则。

一世。系统总览?

推荐系统,如果实际描述适应内容的用户满意度的功能,正式的方式,该功能需要在三个维度上输入变量。

第一个维度是内容。标题现在是内容,图片,视频,UGC小的视频,问答,微头条的综合平台,每个内容有很多自身的特点,需要考虑如何提取不同类型的特征的内容提出建议。第二个维度是一个用户特征。各种标签,包括利息,职业,年龄,性别等。,有很多款刻隐式用户利益的出来,等。。第三尺寸是环境特征。这是移动互联网时代的特点,建议,移动用户在任何时间,任何地点,在不同情况下的工作场所,上下班,旅游,信息偏好已转向。

\

用三个维度相结合,模型给出预测是投机在这种情况下给用户适当的建议。

这里有一个问题,如何引进目标不能直接测量?

推荐型号的点击率,时间看,竖起大拇指,评论,转发,包括拇指可以量化的目标,可以通过拟合模型进行直接估计,在网上看到的电梯就可以知道做的好。但推荐系统的大体量,服务众多用户,无法充分评估指标,除了引进数据元素也很重要指标。

例如,广告和特殊频率内容控制。q这张卡就像是内容的一种特殊形式,其推荐的目标是不完全允许用户浏览,还要考虑答案吸引用户贡献内容到社区。内容以及如何洗牌的一般内容,如何控制频率控制需要考虑。

此外,内容生态因素和社会责任的平台,以抑制为低俗内容的标题党,以抑制低质量的内容,顶部,加权的重要新闻,驳船,低级别的帐户降权内容是算法本身不能完成的内容进一步干预的必要性。?

现在,我将简要介绍如何实现上述算法的基础上,其目标。

上述方程y = F(羲,许,Xc)时,是监督学习的典型问题。有很多方法可以实现,比如传统的协同过滤模型,监督学习算法逻辑回归模型的基础上,深度学习的模型,分解机和GBDT等。

一个很好的建议工业系统需要非常灵活的算法实验平台,可以支持多种算法组合,包括结构调整模型。由于模型是很难有一个共同的架构,所有的推荐方案的。该LR是现在非常流行和几年DNN组合前Facebook将做结合LR算法和GBDT。今日头条几款产品都在使用一套功能强大的算法推荐系统的使用,但根据不同的场景,模型框架将调整。?

看一个典型的推荐功能,有四种类型的功能会推荐型号后发挥更重要的作用。

第一类是的相关特性,属性和内容是评价用户是否匹配。明确的匹配包括关键字匹配,分类匹配,源匹配,匹配的主题。像FM模型中,有一些隐藏的匹配可以从用户和向量的向量的内容之间的距离,可以得出。

第二种类型是环境特性,包括位置,时间。这些功能不仅偏见,同时也为了建立一些配套功能。

第三类,其特征在于热。包括全球热,分类热,热话题,关键词热度,等。当在用户冷启动,特别推荐的系统。热内容信息是在一个时间非常有效。

第四类是共同特征,它可以帮助解决所谓的算法推较窄的问题部分,。协作功能不被视为使用者都有一段历史。但通过用户行为的不同用户,如点击相近,兴趣相似的主题相似的利益类似的话,甚至类似的向量之间的相似性分析,有能力扩展模型探索。?

人才培养模式,大多数的头条新闻部的推荐产品使用实时培训。实时培训资源节约和快速反馈,这是信息产品的流通非常重要。用户行为信息可能需要迅速并反馈到下一个模型推荐刷效果。目前,我们的在线实时处理基于风暴整群抽样的数据,包括点击,展示,收集,共享和其他类型的行动。模型参数服务器是内部开发一个高性能的系统,因为标题数据的规模增长太快,类似的开源系统的稳定性和性能不能满足,我们的基本自主开发的系统做了很多针对性的优化,提供完善的操作和维护工具,还适配现有的业务场景。

目前,世界各地的推荐算法模型的头条新闻是比较大的,原有的特色,包括数十亿个特征向量。整个训练过程服务器在线记录实时功能,卡夫卡文件到队列中,然后再导入风暴集群卡夫卡的消费数据,客户端返回推荐标注建设训练样本,其次是在线培训模型参数根据更新最新的样品,最终模型是在网上更新。这个过程是延迟反馈延迟行动的主要用户,因为文章建议后,立即说,你不一定看,不考虑时间这一部分,整个系统几乎实时。

然而,由于头条当前内容是非常大的,一个小的视频内容有上百万的水平,所有的内容推荐系统不能被所有的模型估算。因此,有必要回顾一些设计策略,每个级别推荐筛选出千库内容从海量的内容时。召回战略最重要的要求是极致的表现,一般加班时间不得超过50毫秒。?

有许多类型的召回策略,我们主要使用了倒思路。离线维护倒,倒密钥可以分类,专题,实体和其他来源,考虑订购热,新鲜,动作等。。网上召回能迅速切断,使从倒置基于用户兴趣标签,高效筛选的一小部分,从内容的大型图书馆更可靠的内容。?

其次,内容分析

内容分析,包括文本分析,图像分析和视频分析。我主要是做一个标题信息,今天我们主要讲一下文本分析。文本分析是在推荐的系统非常重要的作用是用户兴趣建模。无文本标签和内容,用户无法获得标签兴趣。例如,只有那些谁知道的商品标签是互联网,网民要想知道与互联网标签,其他关键字的用户阅读文章标签,太。

在另一方面,标签文本可以直接帮助推荐的功能,比如魅族内容可以推荐给用户的关注魅族,这是符合用户标签。如果由主通道的建议在一定时间内不理想,建议缩小时,用户会发现后该通道的具体建议(如科技,体育,娱乐,军事等。)在阅读,回到主饲料,推荐更好的效果。因为整个模型是开放的,子信道探索出一条更小的空间,更容易满足客户需求。只有单信道反馈来提高推荐困难的精度会比较大,子信道是非常重要的,做的好。而这也需要良好的内容分析。

今天的地图上的头条新闻是实际文本的情况下,。我们可以看到,本文采用了文本分类,关键字,主题,实体的话,等。。当然,不是没有文本特征,推荐系统无法在亚马逊工作,最早的应用程序推荐系统,甚至沃尔玛的时代出现,包括视频Netfilx不建议文本也采用了直接的协同过滤推荐。但对于IT产品,一天大部分时间都消费的内容,新的文本的不是内容具有冷启动是非常困难的,协作的类专题文章不能解决冷启动问题。

今日头条推荐文本特征提取系统主要包括以下几类。首先是一流的,其中语义标记,文章明确标记为语义标签。标签的该部分是通过人的特性来定义,每个标签都有一个明确的含义,该系统是预定义的标签。此外,还有一个隐含的语义特征,其主要特征在于,主题和关键字的功能,其特征是主题单词用于描述概率分布,没有明确的含义; 基于一些关键字将采用统一的表征,没有一套明确的。

还具有文本相似性也是非常重要的。在头条新闻,用户的反馈一直是最大的问题之一是,为什么总推荐的重复内容。问题的难点在于,每个人都不会重复相同的定义。例如,有些人发现这篇文章谈论皇马和巴萨,也有类似的内容昨天,今天说,两支球队是重复。但是对于沉重的球迷,尤其是巴萨球迷不能等待所有报告通过已经阅读。解决这个问题需要根据内容主题类似的文章,措辞,科目等判决。基于这些特点在网上做策略。

同样,也有时间和空间特征,内容分析已经发生和及时性。世事如武汉到北京推限行的用户可能没有意义。最后,还要考虑质量相关的特征,以确定内容是否低俗,色情,无论是软的,鸡汤

图语义标签为标题的功能和使用场景。它们之间的不同级别,不同要求。

我们的目标是达成一个全面的分类,每部影片的每个内容分类的希望; 而真正的系统需要准确的,是相同的名称或内容能够清楚地分辨究竟是指代表的人或事物,但不覆盖整个。概念系统是负责解决更精确,属于抽象的语义。这是我们的第一次自由练习的分类和概念可以在技术互操作性可以找到,后来用一套统一的技术架构。

目前,已经隐含的语义特征可以是非常有益的建议,语义标签,需要继续标注,新概念不断涌现的新名词,需要继续反复标志。其难度和资源做多隐含的语义特征大得多,那么为什么我们需要一个语义标签?有的需要在产品上,比如内容分类通道都需要一个明确和易于理解的文字标签系统。语义标签是检查公司NLP技术的试金石作用。

分类的今日头条在线推荐系统是一个典型的层次文本分类算法。高层根,第一层的分类低于类别,如科技,体育,财经,娱乐,体育,然后将以下故障足球,篮球,乒乓球,网球,田径,游泳。,细分足球国际足坛,中国足球,中国足球已经A,中超,国家队细分。,相比于单独分类,采用分层文本分类算法,可以更好地解决数据歪斜问题。也有一些例外的是,如果你想提高召回,我们可以看到一些飞线连接。这个通用的架构,但是根据问题的难度,各个异构体可分类,SVM分类为一些好成绩,一些与CNN联合,有的在结合后处理它RNN。

图实体是的情况下的字识别算法。基于该结果说明分割和选择候选词性标注,可能需要根据知识库期间使拼接,一些字是实体的组合,以确定其可映射一起实体的话。如果映射多个实体的结果还可以通过字向量,主题单词的频率分布甚至本身等方面的差异,相关性模型的最终计算。

第三,用户标签

内容分析和标签是用户推荐系统的两大基石。内容内容分析学习更多一些,与工程挑战更多的用户标签相比,与机器。

今日头条普通用户的标签包括类别和感兴趣的用户,关键字,来源主题,基于用户兴趣和各种利益垂直集群功能(汽车,运动队,股票等。)。除了性别,年龄,位置等信息。通过第三方社交用户帐户登录所获得的社会性别信息。年龄信息通常是由模型,模型,估计阅读时间分布预测。方法永久的位置,距离授权访问位置信息的用户,通过传统的集群基于位置信息来获得积分居民。与其他信息结合常驻点,可以推测出用户的工作地点,旅游网站,旅游网站。这些用户标记非常有帮助的建议。

当然,最简单的用户标签查看的内容标签。但这里涉及到一些数据处理政策。包括:过滤噪音。通过点击,过滤标题党的停留时间短。二,热点处罚。对一些流行的文章(如PG之一的消息,前一段时间)的用户行为做降权处理。从理论上讲,传播更广泛的内容,信心下降。三,时间衰减。用户兴趣转变会发生,所以策略更感兴趣的是新的用户行为。因此,与用户行为的增加,旧的功能权重将随时间衰减,促成一个新的动作要素权重会更大。四,惩罚秀。如果一篇文章不向用户推荐被点击时,相关特性(类别,关键字,源)的重量将被处罚。当然,我们还必须考虑全球范围内,是不是更相关的内容推送,以及相关的封锁和不喜欢的信号。

用户标签开采一般比较简单,主要是刚才提到的工程挑战。用户标签头条批处理计算架构是第一版,工艺相对简单,在过去两个月昨日得出日活用户行为数据,每天都有一批结果Hadoop集群。

但问题是,随着用户兴趣的型号和其他批处理任务的快速增长也不断增加,计算所涉及的太量。在2014年,数以百万计的用户批处理任务标签更新Hadoop的任务来完成的那一天已经开始刮伤。集群计算资源的限制很容易影响其他工作,专心写分布式存储系统的压力开始增大,并且用户更新延迟增加兴趣标签。?

面对这些挑战。2014年底该行用户标签风暴集群计算系统流媒体今日头条。涌入,只要用户更新动作更新标签后,成本相对较小的CPU,可以节省的CPU时间的80%,大大降低了计算资源的成本。与此同时,只有几十机可以支持数千万用户兴趣模型的每日更新,功能更新速度非常快,基本上可以做到接近实时。该系统已经从线上使用至今。

当然,我们也发现,并非所有用户都需要标记流系统。如性别,年龄,居住地点的用户,并不需要实时重复计算这些信息,它仍保留了每日更新。

四,评估和分析

以上介绍了推荐系统的总体架构,然后建议如何评估效果好?

我认为这是一个非常明智的话,“不是个东西就无法评估优化”。同样是推荐系统的真。?

事实上,有很多因素会影响结果推荐。这样的候选集的变化,改进,或召回模块的增加,增加了在改进的模型体系结构,如优化算法参数推荐功能,而不是一个接一个示例。含义的评价是,很多的优化,最终可能产生负面影响,不优化,以提高效果会就行了。

综合评价推荐系统需要一个完整的评价体系,强大的实验平台和易用性实证分析工具的。所谓完整的系统不是单一的措施,我们不能只是点击率或持续时间停留,等。,我们需要一个全面的评估。在过去的几年里,我们一直在努力,不能集成多达独特的评价指标合成的可能指标,但仍在探索。目前,我们仍然有通过更多的高年级学生对网上业务,以弥补审查委员会深入讨论和决定之后。

很多企业做的很好的算法,而不是工程师,能力不够,而是需要一个强大的测试平台,以及方便实验分析工具,它可以智能地分析数据,信心指数。

一个好的评价体系需要遵循几个原则建立,第一,短期和长期指标指数。之前我在公司负责电力业务方向观察到许多策略来调整短期用户觉得新鲜,但实际上没有长期有帮助。

其次,我们必须考虑到用户的指标和生态指标。今天的头条新闻为内容创作平台,为客户提供价值,两者内容创作者,让他创造更有尊严,也有义务满足用户,既要平衡。此外,还应该考虑广告主的利益,这是多方博弈和平衡的过程。?

此外,要注意协同效应的影响。实验很难严格的交通隔离做,注意外部效应。

\

非常直接的实验平台是当并发实验比较长的时间,就可以了,无需通过交通,交通和实验立即恢复结束的自动分发人类交流的平台,提高管理效率的强大优势。这种分析可以帮助企业降低成本,加快了迭代算法的效果,使整个系统的优化算法,快速推进。

这是头条A / B测试实验系统的基本原理。首先,我们将在离线用户点做的很好的桶,然后分配网络流量的实验中,用户将标签的水桶,给实验组。例如,10%的开放式流实验,每5%的两个实验组中,5%的基线,政策和网上市场的新战略进一步。

在实验过程中会收集用户的动作,基本上准实时的,每小时能看到。但由于波动数据的时间,通常每天的时间节点视图。手术后会出现收集日志处理,分布统计,写入数据库,非常方便。

在这个系统工程师的需求只需要设置的流量,实验时,过滤条件定义特殊的,定制的实验组ID。该系统能够自动生成:对比实验数据,实验数据的信心,总结了实验结果和实验优化建议。

当然,只有实验平台是不够的。在线实验平台只能推测,通过改变改变指标数据的用户体验,但数据指标和用户体验的差异,很多指标不能完全量化。许多改进仍然需要手工分析,主要的改进需要手动评估二次确认。

五,内容安全

今日头条最后介绍的内容安全的若干举措。标题现在最大的内容创建和分发防滑,必须更加注意社会责任和行业领导者的责任。如果推荐的内容中的问题1%,会产生较大的影响。?

所以,从一开始的头条提上了公司的安全最高优先级队列内容。公司成立以来,一直致力于审核小组负责内容安全。当时研究学生的所有客户端,后端,该算法是小于一共有40人,我们非常重视审计头条新闻的内容很重要。

现在,今天的头条新闻的内容主要来自两个部分,PGC平台第一,与成熟的内容生产能力

首先,UGC用户的内容,如测验,用户评论,微头条。这两部分内容需要审核的统一机制。如果是PGC内容的数量相对较少,直接将审计风险,没有问题会建议广泛的。UGC内容需要过滤的问题,一个风险模型将进入二次风险审查。经批准后,内容将是真实的建议。然后,如果你收到超过一定数额的意见或举报负反馈多了,就会回来这里审查环节,有直接的问题现成。整个机制是相对强劲的,在内容安全行业的领导者,今天的头条新闻一直在使用的最高标准要求自己。

分享内容识别技术主要是锦黄模型,虐待和低俗模型模型。今日头条通过模型庸俗深度学习算法训练,非常大的样本库,图片,文本分析的同时。该模型的一部分更注重召回,甚至牺牲一些精度。滥用样本数据库模型也超过一百万和召回高达95%+ 80%+精度。如果用户经常直言不讳的或不适当的评论,我们有一些惩罚机制。

潘查明参与很像一个假新闻不匹配,黑色草案,标题文本,党的低标题,内容质量等低质量的情况下,。时,机器的这一部分是很难理解的,需要大量的反馈,包括其它样本信息比较。目前的精度和召回率的低素质模型是不是特别高,但也需要人工审核相结合,将提高门槛。目前最终的召回已经达到95%,这一事实这部分还有很多工作要做。李坑头条人工智能实验室和密歇根大学也是目前一个建立一个科研项目的教师,建立传闻识别平台。

这些原则头条推荐系统大家分享,希望在未来获得更多的建议,帮助我们更好地改进工作。

相关阅读

友情链接:

大悲咒全文 线上念佛 心经唱诵

|终端营销|广告营销|品牌营销|管理|市场研究|

苏ICP备18043316号    互联网营销网版权所有    网站地图