【推荐算法】今日头条等智能推荐算法原理解析
智能推荐算法已经成为当今信息平台、搜索引擎、浏览器、社交软件等软件的标配。这些算法的设计原理如何?本文将分享今日头条资深算法架构师曹欢欢博士在2018年1月首次公开的今日头条算法原理,帮助读者全面、深入地理解智能推荐算法。
今日头条的信息推荐算法自2012年9月第一版开发运行至今,已历经四次大调整和修改,服务全球亿万用户。以下为曹欢欢博士关于《今日头条算法原理》的分享内容。
本次分享将主要介绍今日头条推荐系统概览、内容分析、用户标签、评估分析、内容安全等原理。分享内容基于平台架构师和算法设计者的视角,对算法应用人员和数字化营销人员也有借鉴意义。
推荐系统实际上是一个拟合用户对内容满意度的函数,需要输入三个维度的变量。模型会根据这三个维度给出一个预估,即推测推荐内容在这一场景下是否合适。引入无法直接衡量的目标,如点击率、阅读时间、点赞、评论、转发等,可以通过模型直接拟合做预估。
一个优秀的工业级推荐系统需要灵活的算法实验平台,支持多种算法组合和模型结构调整。今日头条旗下几款产品都在沿用同一套强大的算法推荐系统,但根据业务场景不同,模型架构会有所调整。
典型推荐特征主要包括相关性特征、环境特征、热度特征和协同特征。相关性特征评估内容的属性与用户是否匹配,环境特征包括地理位置、时间等,热度特征包括全局热度、分类热度等,协同特征可以帮助解决算法越推越窄的问题。
今日头条推荐系统主要采用实时训练,用户行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。整体训练过程是线上服务器记录实时特征,导入Kafka文件队列,然后进一步导入Storm集群消费Kafka数据,客户端回传推荐的label构造训练样本,最终线上模型得到更新。
召回策略设计需要考虑性能,一般超时不能超过50毫秒。召回策略种类有很多,主要用的是倒排的思路,离线维护一个倒排,线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断。
内容分析包括文本分析、图片分析和视频分析。文本分析在推荐系统中一个很重要的作用是用户兴趣建模。今日头条推荐系统主要抽取的文本特征包括语义标签类特征、文本相似度特征、时空特征和质量相关特征。
用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征。用户标签挖掘总体比较简单,主要还是工程挑战。
评估推荐效果需要完备的评估体系、强大的实验平台以及易用的经验分析工具。一个良好的评估体系需要兼顾短期指标与长期指标、用户指标和生态指标、协同效应的影响。
今日头条在内容安全上的一些举措包括专门设有审核团队负责内容安全、成立之初就重视内容审核、采用统一的审核机制、分享内容识别技术等。
以上是今日头条推荐系统的原理分享,希望大家能够借鉴、分析相关原理,以更好地促进工作。
继续阅读:【推荐算法】今日头条等智能推荐算法原理解析今日头条的信息推荐算法自2012年9月第一版开发运行至今,已历经四次大调整和修改,服务全球亿万用户。以下为曹欢欢博士关于《今日头条算法原理》的分享内容。
本次分享将主要介绍今日头条推荐系统概览、内容分析、用户标签、评估分析、内容安全等原理。分享内容基于平台架构师和算法设计者的视角,对算法应用人员和数字化营销人员也有借鉴意义。
推荐系统实际上是一个拟合用户对内容满意度的函数,需要输入三个维度的变量。模型会根据这三个维度给出一个预估,即推测推荐内容在这一场景下是否合适。引入无法直接衡量的目标,如点击率、阅读时间、点赞、评论、转发等,可以通过模型直接拟合做预估。
一个优秀的工业级推荐系统需要灵活的算法实验平台,支持多种算法组合和模型结构调整。今日头条旗下几款产品都在沿用同一套强大的算法推荐系统,但根据业务场景不同,模型架构会有所调整。
典型推荐特征主要包括相关性特征、环境特征、热度特征和协同特征。相关性特征评估内容的属性与用户是否匹配,环境特征包括地理位置、时间等,热度特征包括全局热度、分类热度等,协同特征可以帮助解决算法越推越窄的问题。
今日头条推荐系统主要采用实时训练,用户行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。整体训练过程是线上服务器记录实时特征,导入Kafka文件队列,然后进一步导入Storm集群消费Kafka数据,客户端回传推荐的label构造训练样本,最终线上模型得到更新。
召回策略设计需要考虑性能,一般超时不能超过50毫秒。召回策略种类有很多,主要用的是倒排的思路,离线维护一个倒排,线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断。
内容分析包括文本分析、图片分析和视频分析。文本分析在推荐系统中一个很重要的作用是用户兴趣建模。今日头条推荐系统主要抽取的文本特征包括语义标签类特征、文本相似度特征、时空特征和质量相关特征。
用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征。用户标签挖掘总体比较简单,主要还是工程挑战。
评估推荐效果需要完备的评估体系、强大的实验平台以及易用的经验分析工具。一个良好的评估体系需要兼顾短期指标与长期指标、用户指标和生态指标、协同效应的影响。
今日头条在内容安全上的一些举措包括专门设有审核团队负责内容安全、成立之初就重视内容审核、采用统一的审核机制、分享内容识别技术等。
以上是今日头条推荐系统的原理分享,希望大家能够借鉴、分析相关原理,以更好地促进工作。