电商门户 互联网+国家战略智库
·设为首页 ·我要投稿 ·生意宝 ·生意社 ·官方微信 ·专题
综合
SAAS  |跨境
钢铁网 上市|化塑
大宗品 工业|B2B
零售
B2C|海淘 时尚|珠宝
三农|母婴 女性|食品
美妆|百货 生鲜|鞋服
O2O
房产|教育 团购|餐饮
社区|家居 汽车|差旅
医疗|婚嫁 智能|影视
金融
电商金融 保险|支付
众筹|P2P 政策|企业
消费|理财 银行|征信
智库
报告|数据 法规库
研报|案例 企业库
百科|运营 论文库
人物
网红|专家 企业家
人才|培训 微博库
快评|明星 记者库
服务
法律|维权 淘宝|曝光
营销|物流 传媒|导航
思维|品牌 微商|会议
当前位置:首页 > > B2C研究 > 实战:教你解读淘宝搜索算法现状

实战:教你解读淘宝搜索算法现状

http://www.100ec.cn  2017年09月12日11:47  中国电子商务研究中心 人才招聘 产品服务

  (中国电子商务研究中心讯)淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:

  一.算法模型

  当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。

  对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数,然后进行排序。这里的相关性,和重要性就是网页排序模型中两个重要的因子。具体来说相关性因子是指搜索关键字在文档中出现的度数,当这个度数越高时,则认为该文档的相关程度越高。重要度因子比如Google的Pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。

  考虑淘宝搜索的时候,有些特征因子是很容易能想到的,比如:

  A.文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候,一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。文本相关性最基本的计算方式可以参考BM25等。

  B.类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是配件类目。

  C.图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮癣”,和商品匹配度等都很大程度上影响着用户的点击和购买决策。

  D.商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等。

  E.作弊因子:类似于全网搜索有关键词堆砌,link spam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中。

  F.公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个基本静态的排序,照成商品点击和展示的马太效应。

  类似的商品,卖家,买家,搜索词等方面的特征因子有很多,一个排序模型就是把各种各样不同的特征因子组合起来,给出一个最终的关键词到商品的相关性分数。只用其中的一到两个特征因子,已经可以对商品做一些最基本的排序。如果有更多的特征参与到排序,我们就可能得到一个更好的排序算法。组合的方法可以有简单的人工配置到复杂的类似Learning to Rank等的学习模型。

  二.线下评估

  算法模型的评估一般分为线下的评估和线上的评估,线下的评估很多都体现在搜索中常用的相关性(Relevance)指标。相关性的定义可以分为狭义相关性和广义相关性两方面,狭义相关性一般指检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。当用户在搜索框输入关键词,到需求获得满足,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。

  在淘宝搜索衡量狭义相关性的时候,一般是使用PI(Per Item)测试的方法:

  A.抽取具有代表性的查询关键词,组成一个规模适当的关键词集合

  B.针对这个关键词集合,从模型的产出结果中查询对应的结果,进行人工标注(人工判断为相关性好、中、差等),对人工评测的结果数据,使用预定义好的评价计算公式比如DCG等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度。

  利用人工标注数据来计算相关性的分数,来判断模型的好坏;在这个过程中人工不可避免的会有主观的判断,但综合了多人的判断结果还是可以获得一个有统计意义的结果,另一方面标注数据也可以帮助我们找到一个算法表现不理想的地方,有针对性的提升。

  广义的相关性线下评测比较困难,受人工主观因素的影响更大,一般使用SBS(Side by Side)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以最终的统计结果综合来衡量新模型和老模型的搜索表现。

  线下评测的方法和指标有很多,不同的搜索引擎会关注不同的指标,比如以前Yahoo的全网搜索引擎比较关注RCFP(Relevance,Coverage,Freshness,Perspective)等,淘宝搜索线下评测时候一般统计DCG和SBS的指标。

  线下的评测方法从统计上有一定的指导意义,能从一定程度上区分模型的好坏,但要真正验证算法模型的好坏,还需要接受真实的流量来验证。

  三.线上测试

  为了真实验证一个算法模型的好坏,需要有一个系统能提供真实的流量来检验。淘宝搜索实现的BTS(Bucket Testing System)系统就是这样的一个环境,在用户搜索时,由搜索系统根据一定的策略来自动决定用户的分组号(Bucket id),保证自动抽取导入不同分组的流量具有可对比性,然后让不同分组的用户看到的不同算法模型提供的结果。用户在不同模型下的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,最后就形成了不同模型之间孰优孰劣的结论。只要分组的流量达到一定的程度,数据指标从统计意义上就具有可比性。

  不同的BTS系统会关注不同的数据指标,在淘宝搜索,有一些重要的指标是很多算法模型测试的时候关注的:

  访问UV成交转化率:来淘宝搜索的UV,最终通过搜索结果成交的用户占比。

  IPV-UV转化率:来淘宝搜索的UV,有多少比例的用户点击了搜索结果

  CTR:搜索产生的点击占搜索产生的PV的比例

  客单价:每个成交用户在淘宝搜索上产生成交的平均价格

  基尼系数:基尼系数是一个经济学名词,考量社会财富的集中度;如果社会财富集中到很少一部分富人手中的时候,基尼系数就会增大,社会的稳定性和可持续发展性就会出现问题;淘宝搜索借用了这个概念来衡量搜索带给卖家的PV展示,和点击的集中度,在保证用户体验的前提下,给更多的优质或小小而美的卖家展示的机会。(来源:淘宝搜索算法;文/青峰;编选:中国电子商务研究中心)



    双11刚过,“黑五”接踵而至。中国电子商务研究中心启动“直击黑五”行动(详见专题:http://www.100ec.cn/zt/2017h5/),通过专题直击、现场探访、电商快评、网购预警、系列报告、评测榜单、媒体评论、投诉维权、社群直播等九大多元化、立体化方式,对天猫国际、京东海外购、亚马逊海外购、淘宝全球购、苏宁海外购、网易考拉海购、速卖通、丰趣海淘、洋码头、寺库、唯品国际、聚美优品、小红书、美囤妈妈、贝贝网等电商平台进行持续跟踪、监测、评论、评测、监督,为大家揭秘跨境版的“双11”。

「关键字」互联网 淘宝 电商
版权声明
   (1)凡本中心注明“来源:中国电子商务研究中心”或带有中国电子商务研究中心水印LOGO的所有文字、图片、音频、视频及其他任何形式的作品 ,其版权均属中国电子商务研究中心所有,任何媒体、网站或个人未经本中心协议授权不得转载、链接、转贴或以其他方式复制发布/发表。已与本中心协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国电子商务研究中心”,违者本中心将依法追究责任。
   (2)转载或引用本中心内容必须是以新闻性或资料性公共免费信息为使用目的的合理、善意引用,不得对本中心内容原意进行曲解、修改,同时必须保留本中心注明的“稿件来源”,并自负版权等法律责任。
   (3)对于不当转载或引用本中心内容而引起的民事纷争、行政处理或其他损失,本中心不承担责任。
   (4)凡本中心注明“来源:xxx(非中国电子商务研究中心)”的文/图等稿件,均转载自其它媒体、网站与机构,其转载目的在于传递更多信息,并不代表本中心赞同其观点和对其真实性负责,请读者仅作参考,并请自行核实相关内容,如其他媒体、网站或个人从本网下载使用,必须保留本网注明的“稿件来源”,并自负版权等法律责任。
   (5)关于本中心发布的用户投诉稿件,信息均由用户通过本中心投诉通道提供,本中心不对其真实性负责,若内容真实性有误,请与本中心联系,本中心将在核实后进行处理。
   (6)对不遵守本声明或其他违法、恶意使用本中心内容者,本中心保留追究其法律责任的权利。
   (7)如因作品内容、版权和其它问题需要同本中心联系的请发送相关内容至邮箱:news@netsun.com)
   此版权声明解释权归中国电子商务研究中心所有。
更多>>热点新闻
  一、事件背景   近期,黑市上出现一份数据,称是"趣店学生用户数据"。该数据维度极细,除姓名、电话、还款额、滞纳金、逾期天数、学校、宿舍、毕业时间等详细信息外,还包括学生父母电话、男女朋友电话、学信...[详细]
生态型企业:更多>>
图书出版
  • 电商报告
  • 投诉曝光
  • 热点专题
曝光专区:更多>>
有以下事宜,请联系:NEWS@netsun.com  详情点击
新闻发布 投稿爆料 案例分享 数据报告
有以下事宜,请联系:BD@netsun.com
广告投放 培训演讲 微信合作 会议合作
有以下事宜,请联系:B2B@netsun.com
专家申报 政府课题 园区招商 跨境电商
以下企业,请联系:B2C@netsun.com
B2C电商 服务商 品牌商 仓储物流
以下企业,请联系:JR@netsun.com
银行金融 支付 P2P 理财 众筹 VC/PE
以下企业,请联系:O2O@netsun.com
O2O 餐饮外卖 在线医疗 旅游出行
以下人士,请联系:TOUSU@netsun.com
网购投诉 律师/司法 媒体记者 网络安全
行业/频道: 产品/服务: 数据/研究: 导航/平台:
政府 全球电商 部委|省市 法规|会议 信息化
零售 B2C|传统 网购|团购 C2C|品牌 开放平台
行业 B2B|外贸 O2O|物流 营销|移动 互联网
金融 金融|支付 上市公司 P2P|基金 投融资
专家认证 融资顾问 法律顾问
电商培训 政府顾问 园区服务
广告|营销 会议服务 报告订制
媒体服务 记者服务 会员入驻
数据|报告 图书|案例
运营实战 分析师|专家
信息图|人物 互联网研究
B2B研究 B2C研究
政策文件 法律求助
投诉维权 曝光台
企业库 B2B导航
网购导航 打折促销
关于我们 联系我们 商务合作 投稿撤稿 友情链接 免责声明 人才招聘 独家专题 中心微信
中国电子商务研究中心 版权所有