商务服务
【技术分享】七:搜索排序—排序模型
2024-11-05 04:50

本文原作者:彭江军,经授权后发布。

【技术分享】七:搜索排序—排序模型

模型是机器学习三问里面的怎么去学的环节。是确定特征与因变量之间关系最为核心的步骤。这部分涉及到模型的选择,和优化目标以及损失函数的选取。排序由第一节讲到,LTR有三个模式,分别是pointwise, pairwise,listwise。在这里主要描述一下采用的模型Lightgbm模型。在后面我们将看到选择什么样的决策函数(优化目标)就会带来什么的效果。最后基于对于整个数据业务和模型的理解,实现了在listwise的模型下CTR和转化率各0.6的提升;在pointwise的模型下,实现转化率3个点的提升

关于Lightgbm和Xgboost,两者的关系可以认为Lightgbm是Xgboost的一个轻量版,训练过程更快,对内存的消耗更小。这里贴上1篇博文,方便大家查找,细致的了解其预测的原理。

简短概括来说,其实现的主要的模型是GBDT,是基于树模型的集成学习模型。GBDT的算法流程可以参加下面的链接,,里面包含一些公式的推导,不想了解其推导公式可以不用点击去。因为下面我会用简短的语言和图像来描述算法的思想。

GDBT依赖于树模型。

树模型我们可以简单将其它看成许多IF-THEN规则的集合,如下图所示:可以根据样本特征的分裂将该样本预测成众多叶子节点中的一个值。

GBDT在树模型的基础上,基于预测的残差做了多轮的迭代。简单来说就是,在第一颗CART预测的基础上,对第一题预测的误差在去第2棵树中进行预测,如此重复。直到达到停止条件,于是GBDT的预测就是N个棵树预测的结果的加和。

项目的背景和建模可以看第三节:搜索排序——机器学习化建模

在部分,将展示基于三种不同的优化目标下的结果。

当我们选定纯点击为优化问题的,我们的优化目标就唯一确定为以用户的点击为优化目标,此时选择为二分类的lightgbm 模型。二分类的pointwise的模型,记为click_point_model。

当我们选定纯长点击为优化问题的,我们的优化目标就唯一确定为以用户的长点击为优化目标(长点击可以理解为用户点击并观看的时长满足到一定的条件),此时选择二分类的lightgbm 模型。二分类的pointwise的模型,记为longclick_point_model。

当我们选定同时优化点击和长点击的时候,我们将label 设置为0-3个类别。Label的设置参照下表:

采用lightgbm 模型下的lambdamart,记为listwise_model。这里之所以没有采用多分类,有两个原因,1:类别的分别实际是很不均匀的。2: 想比准确的预测每个label而言,我们更关注他们之间的顺序关系。基于此,最后选了listwise的model.

Label的分布如下图所示:

在多个指标中,挑选出最有代表性的几个指标,最终的结果整理展示如下所示:

其中的长转化率1是经过一些处理后的值,主要是为了对标腾讯视频的竞品的数值,参照竞品的设计来设计的。具体会是哪个竞品了,不说。

配上几张趋势图:

分桶的CTR趋势图

分桶的长转化趋势图:

由此可见,选择好自己想要优化的目标,确定决策函数一件非常重要的事情,它决定了模型优化学习的方向。

另外利用Lightgbm还可以得到特征的重要性分布,如下图反映了长点击的训练得到的树模型权重重要性分布:

我们这里实际上做的是一个精排的工作,里面用到比较多的feature实际上已经做过一些处理,不是最原始的特征了,比如说pctr这个维度的特征的得到,就是基于一个有上亿级别的特征的DNN网络得到(很多稀疏的embedding 特征),在此就不做展开了。

这个图反应在集成学习的树模型之中各个特征的重要性程度。特征的重要性分析记得在前面的特征分析那一节里面讲过,选择不同的类别,基于信息熵得到JS散度也会得到一个权重的重要性数值。

系列文章:

【技术分享】一:搜索排序—概述

【技术分析】二:搜索排序—工业流程

【技术分享】三:搜索排序—机器学习化建模

【技术分享】四:搜索排序—数据的采集与构造

【技术分享】五:搜索排序-特征分析

    以上就是本篇文章【【技术分享】七:搜索排序—排序模型】的全部内容了,欢迎阅览 ! 文章地址:http://dgaty.xhstdz.com/news/392.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园资讯移动站 http://dgsw198.xhstdz.com/ , 查看更多   
最新新闻
夜深忽梦少年事,梦啼妆泪红阑干诗句鉴赏
夜深忽梦少年事,梦啼妆泪红阑干诗句鉴赏  鉴赏是对文物、艺术品等的鉴定和欣赏。人们对艺术形象进行感受,理解和评判的思维活
不骗人!在武汉生活有些事不可以做!这99条你应该要知道
大武汉,容纳着几千万人在这里生活!小编以N个武汉老杆的亲身经历作总结,告诉大家,在武汉生活,想要轻松有趣,这些事情是千万
娱乐圈又有大瓜,三字顶流男星塌房,有女粉丝发生关系后怀孕流产
2月12日,娱乐圈的瓜田又有新动静,有八卦媒体在网上爆料,称某顶级流量明星塌房啦!据悉 ,这位顶级流量男明星的名字是三个字,
3款口碑炸裂的BI数据分析工具测评
BI商业智能,是个曾经很火现在没那么火的词,因为进入了真正的应用期。作为当下最广泛使用的数据分析工具,它的好处实在太多啦:
情侣之间的真心话问题合集
情侣之间的真心话问题有哪些?情侣之间偶尔也是需要做一些小游戏来增进感情的,而真心话就是非常好的一个选择,不仅可以让彼此更
抖音比较容易上热门的文案精选190句
抖音比较容易上热门的文案精选190句  随着社交网络和信息技术的迅猛发展,越来越多人喜欢发表文案,文案用以记录每天的生活,
kibana 查看有多少索引库_网站优化中的收录量和索引量分别指什么?
 网站人员在优化中每天都需要观察数据,其中最重要的就是网站的索引量和收录量。但是很大运营人员都会把这个两个指标给弄
Videvo: Freepik旗下免费视频素材资源下载平台
免费版权素材作为一个免费的用户,你可以享受访问超过50000个免费的视频剪辑和运动图形素材模板,动画背景和数百个免费的声音效
全局搜索关键字命令_强悍的 Windows 系统文件定位/搜索辅助软件——Listary
一直以来,电脑端文件搜索有两大利器,everything和Listary,前段时间少东家分享了everything(参考 本地文件搜索利器:everythin
CODC数据:2021年新能源车企户外广告投放日渐增多!
全媒通机场广告资源:覆盖国内外主流城市机场广告媒体资源及7大航空公司机载广告资源;机场广告投放形式有:灯箱、电子屏、电视
本企业新闻