百度搜索引擎的排序方式是如何的?

百度搜索引擎的排序方式主要围绕以下几个方面展开:

1. 背景

百度的综合信息流推荐涵盖了从搜索框列表页到沉浸式推荐等多样化的交互形态,涉及丰富的产品类型。用户可以对内容进行评论、点赞、收藏,访问作者页面,或提供负反馈。面对庞大的数据量,百度在特征设计时采用了离散化策略,以平衡对头部用户和稀疏长尾内容的记忆与泛化能力,同时重视用户点击与消费决策序列的建模。

2. 特征

在特征设计上,百度综合考虑了用户、资源、场景和状态四个维度,构建了全面的决策过程模型。用户特征包含基础画像、细粒度偏好和序列行为;资源特征涉及ID、明文画像、嵌入和统计描述;场景特征则涵盖不同交互形态。通过组合多种维度,优化特征体系,以提升推荐系统的性能。

3. 算法

推荐排序的核心算法包括粗排和精排。粗排通过优化特征设计和模型结构,解决样本选择偏差和召回队列优化等问题,为精排提供高质量候选资源。精排则专注于复杂交叉特征和序列建模,提升单点AUC精度。超大规模离散DNN的泛化能力通过低维嵌入学习和矩阵分解策略得以提升,缓解了过拟合问题。

4. 架构

系统架构采用分层设计,包括召回、粗排、精排和重排等模块。各层目标一致但侧重点不同,从召回层的泛化和召回率,到精排的单点AUC精度,再到重排的整体序列优化。通过多阶段模型联合训练,精排和重排之间建立紧密关系,避免打分耦合,同时提高重排模型精度。

5. 未来计划

百度正探索基于LLM大语言模型的推荐系统,旨在提升决策能力,探索从判别到生成的推荐方式,以及从黑盒到白盒的模型优化。这将涉及决策链优化、生成式推荐、因果分析和无偏估计等多个方面,以实现更高效、个性化的推荐服务。