电商搜索如何保证搜索结果不偏离搜索意图?
日期:2023-12-04 19:01:34 / 人气:583
电商搜索如何保证搜索结果不偏离搜索意图?“在电商APP中,搜索模块如何控制搜索结果,以保证搜索结果符合用户的搜索意图?在本文中,作者对电子商务搜索中的类别预测和相关性控制模块进行了介绍和梳理。我们来看一下,或许能帮助你更好的理解电商搜索。
首先,介绍一下
用户在电商APP上搜索时,搜索引擎如何控制返回的搜索结果符合用户的搜索意图?
电子商务搜索结果的相关性一般通过两种方法来控制:一种是通过类别相关性,另一种是通过相关性控制模型。但是,关联控制的尺度并没有标准答案。在满足平台整体业务特性和用户体验的前提下,可以基于用户的个性化偏好进行进一步的关联阈值控制。对用户个性化偏好的了解不仅可以通过系统的EE (Exploration and Utilization)机制来实现,还可以通过调查问卷的形式来实现。
下面详细介绍一下电商搜索中的品类预测和关联控制模块:
二、品类预测
介绍
电商搜索和内容社区搜索都需要做品类预测。电商和内容社区都有自己特殊的品类分类体系。类别预测有助于更好地计算搜索词与素材的相关度,并将其应用于后续搜索类别的导航功能。
比如用户在生鲜电商平台购买食品,搜索“早餐”、“早餐”,结果如下图所示。该搜索引擎将“早餐”与牛奶、包子、烧麦和汤圆等类别相关联。事实上,类别预测模块将原始搜索词与这些类别相关联。类别预测的另一个作用是在后续的关联排序环节中,将关联度较高的类别素材放在前排。
如下图所示,可以匹配“光明”的品类有很多,比如牛奶、啤酒、米饭、面包等。我们需要预测“亮”与哪个类别的相关性最高,以便在排序时做参考。模型预测“光明”与牛奶品类关联度最高,因此牛奶需要在后续排名中排在第一位。
2.类别预测方法
有三种常见的类别预测方法。
1)基于手动规则
从日志信息中提取热门搜索词,然后将这些搜索词与相关类别进行人工匹配,以确保下次搜索时与搜索词匹配的类别是正确的。
优点:可以实现快速在线。缺点:扩展性差,人工运营成本高。这种方法可以用在搜索引擎建设的初期。
2)基于用户行为的数据统计
第二种方法是通过用户的行为数据,分析每个搜索词对应的类目。
首先统计每个搜索词被搜索后用户点击浏览的资料的类别分布。用户会在搜索结果中主动搜索正确答案,用户点击的素材对应的类别就是搜索词要匹配的类别。我们需要设计一个索引阈值。指数是单位时间内单个类别对应的点击量。如果点击量大于阈值,说明数据可信。
如下表所示,如果点击阈值设置为50次,则罐装品类与搜索词“枣枣”的相关度为0,其他品类与搜索词的相关度可用品类点击次数除以总点击次数来计算。
优点:利用用户的历史行为数据,可以从数据中学习,具有一定的扩展性。缺点:长尾搜索词覆盖率低。
3)基于类别的预测模型
以上介绍的两种方法对于新搜索词的类别预测具有较低的覆盖率和普遍的扩展性。在实际工作中,我们需要建立一个特殊的类别预测模型。下面这本书以电商领域的品类预测为例来说明。
①训练样本的构建
建立类别预测模型的第一步是建立训练样本。在电子商务领域,我们可以将产品标题或用户历史搜索词与对应的类别组成一对,一对代表一个训练样本。如下表所示,构建相应的训练样本,并手动标记和重新审核。类别预测模型是多分类模型,一个搜索词可以对应多个类别。
②预测结果的选择
该模型的输入是搜索词,输出是可能的相关类别和相应的概率。因为类别预测模型是多分类模型,所以单个搜索词可能输出多个相关类别。这时候我们就需要为类别预测的相关性设置一个阈值。例如,如果搜索词与类别的相关度超过0.5,则说明它们之间的相关度是可信的。这个阈值需要根据实际训练的模型对测试集的验证效果来确定。
③实际应用
在实际应用中,我们一般将品类预测模型分为线上和线下两部分。因为线上模型对实时性要求非常高,所以我们把一些品类预测工作放到线下。因为搜索引擎中每天80%以上的搜索都是重复搜索,我们可以提前预测这些搜索词的类别,手动纠正错误的搜索词。最后,我们可以将类别预测的结果预先存储在Redis内存数据库中,在线使用时直接查询。对于另外20%的长尾关键词,可以进行在线实时预测。这样,线路上的系统压力可以大大降低。
优点:泛化能力强,对长尾搜索词的类别预测准确率高。缺点:线上模型耗时较多,需要设计合理的系统架构。
第三,关联控制
除了上述的类别预测模型之外,在一些召回分支中,比如语义相关召回策略,会为召回的结果单独建立一个相关性控制模型,来评估搜索结果与查询的相关性,过滤掉相关性弱的搜索结果。
由于语义相关度召回是从语义层面评估查询与文档的相关度,很多召回的素材在文本层面与搜索词没有相关性,因此在实际应用中会出现相应的用户体验问题。
为了最小化在线的用户体验问题,需要在系统中单独设计一个关联控制模型。相关控制模型是一个两类模型,专门用于判断向量召回的材料,评估是否与搜索词相关。
1.关联控制模型和语义关联回忆模型的区别。
第一点,语义相关召回模型输出的是搜索词与文档的相似度,是一个具体的值,而不是一个类别。相关性控制模型的输出是类别,即相关或不相关。
第二点是语义相关召回模型训练中使用的核心数据来自在线点击曝光数据,而相关控制模型训练中使用的数据主要是人工标注数据,因此需要保证搜索词与文档的严格关联。
2.工业中的实际应用
有的公司把关联控制模型和语义关联召回模型要求的任务合二为一,全部由语义关联召回模型完成。
首先,人工审查语义相关召回模型中使用的训练样本,以确保训练样本的严格相关性。其次,系统对语义相关召回模型最终输出的相似度设置了较高的阈值,以保证返回材料的高相关性。
模型拆分后,各端可以专注于优化自己的核心目标。模型合并后,需要保证高相关性,召回更多的素材。这两个优化目标在某种程度上是矛盾的。是否拆分,要看公司搜索引擎的发展阶段和实际业务量。目前头部互联网公司将两种模式拆分,分别优化。
第四,用户对“准确性”的个性化偏好
如前所述,不同的用户对“准确性”有不同的偏好。有些用户希望搜索结果与自己的搜索词有很强的相关性,有些用户可以接受有些搜索结果没有那些准确。
如何了解不同用户的喜好,进而更好地满足用户的不同需求?一种方式是通过系统探索来发掘用户的兴趣。另一种像淘宝,可以通过调查问卷让用户主动反馈,最终根据用户反馈控制搜索结果的准确性。
本文摘自我的新书《搜索与推广战略产品经理——互联网大公司搜索+广告+推荐案例》~
本文原载于《人人都是产品经理》。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。"
首先,介绍一下
用户在电商APP上搜索时,搜索引擎如何控制返回的搜索结果符合用户的搜索意图?
电子商务搜索结果的相关性一般通过两种方法来控制:一种是通过类别相关性,另一种是通过相关性控制模型。但是,关联控制的尺度并没有标准答案。在满足平台整体业务特性和用户体验的前提下,可以基于用户的个性化偏好进行进一步的关联阈值控制。对用户个性化偏好的了解不仅可以通过系统的EE (Exploration and Utilization)机制来实现,还可以通过调查问卷的形式来实现。
下面详细介绍一下电商搜索中的品类预测和关联控制模块:
二、品类预测
介绍
电商搜索和内容社区搜索都需要做品类预测。电商和内容社区都有自己特殊的品类分类体系。类别预测有助于更好地计算搜索词与素材的相关度,并将其应用于后续搜索类别的导航功能。
比如用户在生鲜电商平台购买食品,搜索“早餐”、“早餐”,结果如下图所示。该搜索引擎将“早餐”与牛奶、包子、烧麦和汤圆等类别相关联。事实上,类别预测模块将原始搜索词与这些类别相关联。类别预测的另一个作用是在后续的关联排序环节中,将关联度较高的类别素材放在前排。
如下图所示,可以匹配“光明”的品类有很多,比如牛奶、啤酒、米饭、面包等。我们需要预测“亮”与哪个类别的相关性最高,以便在排序时做参考。模型预测“光明”与牛奶品类关联度最高,因此牛奶需要在后续排名中排在第一位。
2.类别预测方法
有三种常见的类别预测方法。
1)基于手动规则
从日志信息中提取热门搜索词,然后将这些搜索词与相关类别进行人工匹配,以确保下次搜索时与搜索词匹配的类别是正确的。
优点:可以实现快速在线。缺点:扩展性差,人工运营成本高。这种方法可以用在搜索引擎建设的初期。
2)基于用户行为的数据统计
第二种方法是通过用户的行为数据,分析每个搜索词对应的类目。
首先统计每个搜索词被搜索后用户点击浏览的资料的类别分布。用户会在搜索结果中主动搜索正确答案,用户点击的素材对应的类别就是搜索词要匹配的类别。我们需要设计一个索引阈值。指数是单位时间内单个类别对应的点击量。如果点击量大于阈值,说明数据可信。
如下表所示,如果点击阈值设置为50次,则罐装品类与搜索词“枣枣”的相关度为0,其他品类与搜索词的相关度可用品类点击次数除以总点击次数来计算。
优点:利用用户的历史行为数据,可以从数据中学习,具有一定的扩展性。缺点:长尾搜索词覆盖率低。
3)基于类别的预测模型
以上介绍的两种方法对于新搜索词的类别预测具有较低的覆盖率和普遍的扩展性。在实际工作中,我们需要建立一个特殊的类别预测模型。下面这本书以电商领域的品类预测为例来说明。
①训练样本的构建
建立类别预测模型的第一步是建立训练样本。在电子商务领域,我们可以将产品标题或用户历史搜索词与对应的类别组成一对,一对代表一个训练样本。如下表所示,构建相应的训练样本,并手动标记和重新审核。类别预测模型是多分类模型,一个搜索词可以对应多个类别。
②预测结果的选择
该模型的输入是搜索词,输出是可能的相关类别和相应的概率。因为类别预测模型是多分类模型,所以单个搜索词可能输出多个相关类别。这时候我们就需要为类别预测的相关性设置一个阈值。例如,如果搜索词与类别的相关度超过0.5,则说明它们之间的相关度是可信的。这个阈值需要根据实际训练的模型对测试集的验证效果来确定。
③实际应用
在实际应用中,我们一般将品类预测模型分为线上和线下两部分。因为线上模型对实时性要求非常高,所以我们把一些品类预测工作放到线下。因为搜索引擎中每天80%以上的搜索都是重复搜索,我们可以提前预测这些搜索词的类别,手动纠正错误的搜索词。最后,我们可以将类别预测的结果预先存储在Redis内存数据库中,在线使用时直接查询。对于另外20%的长尾关键词,可以进行在线实时预测。这样,线路上的系统压力可以大大降低。
优点:泛化能力强,对长尾搜索词的类别预测准确率高。缺点:线上模型耗时较多,需要设计合理的系统架构。
第三,关联控制
除了上述的类别预测模型之外,在一些召回分支中,比如语义相关召回策略,会为召回的结果单独建立一个相关性控制模型,来评估搜索结果与查询的相关性,过滤掉相关性弱的搜索结果。
由于语义相关度召回是从语义层面评估查询与文档的相关度,很多召回的素材在文本层面与搜索词没有相关性,因此在实际应用中会出现相应的用户体验问题。
为了最小化在线的用户体验问题,需要在系统中单独设计一个关联控制模型。相关控制模型是一个两类模型,专门用于判断向量召回的材料,评估是否与搜索词相关。
1.关联控制模型和语义关联回忆模型的区别。
第一点,语义相关召回模型输出的是搜索词与文档的相似度,是一个具体的值,而不是一个类别。相关性控制模型的输出是类别,即相关或不相关。
第二点是语义相关召回模型训练中使用的核心数据来自在线点击曝光数据,而相关控制模型训练中使用的数据主要是人工标注数据,因此需要保证搜索词与文档的严格关联。
2.工业中的实际应用
有的公司把关联控制模型和语义关联召回模型要求的任务合二为一,全部由语义关联召回模型完成。
首先,人工审查语义相关召回模型中使用的训练样本,以确保训练样本的严格相关性。其次,系统对语义相关召回模型最终输出的相似度设置了较高的阈值,以保证返回材料的高相关性。
模型拆分后,各端可以专注于优化自己的核心目标。模型合并后,需要保证高相关性,召回更多的素材。这两个优化目标在某种程度上是矛盾的。是否拆分,要看公司搜索引擎的发展阶段和实际业务量。目前头部互联网公司将两种模式拆分,分别优化。
第四,用户对“准确性”的个性化偏好
如前所述,不同的用户对“准确性”有不同的偏好。有些用户希望搜索结果与自己的搜索词有很强的相关性,有些用户可以接受有些搜索结果没有那些准确。
如何了解不同用户的喜好,进而更好地满足用户的不同需求?一种方式是通过系统探索来发掘用户的兴趣。另一种像淘宝,可以通过调查问卷让用户主动反馈,最终根据用户反馈控制搜索结果的准确性。
本文摘自我的新书《搜索与推广战略产品经理——互联网大公司搜索+广告+推荐案例》~
本文原载于《人人都是产品经理》。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。"
作者:傲世皇朝平台
新闻资讯 News
- 王金兰实名举报刀郎后续,知情人...12-17
- 《西北岁月》丁勇岱再演彭老总,...12-17
- 想步冬宝后尘,却弄了个面目全非...12-17
- 张泉灵,曾是央视一姐,嫁给大18...12-17