视频搜索业务的算法体系与优化

释放双眼,带上耳机,听听看~!
本文介绍了视频搜索业务的算法体系与优化,包括业务剖析、算法体系、优化目标等内容。

作者:卉芸

1. 业务简介与分析

1.1 业务剖析

谈到搜索,大家日常生活已离不开此功能,例如通用搜索引擎Google百度,购物时的电商搜索,听歌时的音乐app搜索等。在不同的业务场景下,搜索的业务本质与目标也有着很大异同。在电商场景下,搜索本质上是非精准导向的,因为满足用户query意图的商品候选量级极大,个性化的作用极大的被彰显,在query理解、召回及排序的各个环节,个性化都是必不可少的考量因素;此外,用户的query与商品的title存在明显的语义gap,商家多采用属性堆砌的方式来构成标题,导致与用户的表达方式差异较大;最后,算法的优化目标也非常清晰单一,即gmv及成交笔数。

在云音乐搜索业务中,候选资源种类繁多,涵盖艺人、单曲、歌单、视频、播单等多种异构资源,混排面临更多的挑战;同时,对于艺人及歌曲的搜索,更偏向于精准化导向,满足用户意图的候选往往个数较少,对准确性要求极高,但在视频及歌单搜索中,又更具备非精准性,满足用户query的候选多,故结果的个性化与多样性更需要被保障;对于不同的资源类型,算法的优化目标也不尽相同。

视频资源作为一种多模态的资源类型,在音乐搜索中,有着自己的独特性:

(1)内容理解难:视频的标题及描述并不能反应视频的全部内容,视音频模态的信息补充非常关键;描述文本倾向于自然语句,而非结构化的属性标签,长度也长短不均;信息抽取与语义表征难度高,用户query与视频相关性建模更为艰巨。

(2)相关性要求高:当用户搜索单曲无版权时,可能会到视频页查找资源。有些搜索query存在歧义,例如抖音火爆的歌曲“会不会”,仅通过文本词级别的匹配,会得到大量不相关的视频资源,故需要结合用户的真实意图来确保结果的相关性。

(3)时效性强:用户对热点内容需求较大,新热上升视频应该具备更多的曝光流量,例如“蜜雪冰城”搜索结果下,应该将最近较火的日文改编版往前排。搜索结果的时新性对用户的体验至关重要,实时的特征对排序效果影响较大。

(4)优化目标多:视频总体指标如下图所示,其中点击率和有效率,是最基础的优化目标,视频的播放时长占比、点赞率、收藏率、转发率也很重要,它们能更好的激励视频生产者创作,并和视频消费者形成更紧密的互动,利好整个视频生态。

视频搜索业务的算法体系与优化

1.2 算法体系

视频搜索业务的算法体系与优化

如上图所示,视频搜索的整体算法体系可以分为五大模块:query理解模块、召回&扩召回模块、相关性模块、排序模块及重排策略模块。

数据挖掘提供基础的数据支撑,包括新词发现、同义词挖掘、标签挖掘等,通过离线方式定时更新底层信息库,同时服务于视频理解模块。query理解作为初始环节,包揽了文本归一化、纠错、词权重分析、实体及属性抽取、意图识别等功能,从用户不规则的输入文本中,获取到核心结构化信息,送入后续模块进一步处理。

召回部分可细分为两块,基础的文本搜索引擎和多路扩召回,搜索引擎结合紧密度、热度、tf-idf等特征给出候选粗排分数。扩召回可细分为两大类型:query改写多路及向量召回,前者通过显式的构建同义query召回更多满足语义的视频,具备更好的可解释性和可控性,后者利用模型泛化性隐式的召回相关视频,会带来一些惊喜的结果。相关性模块用于衡量用户query和视频的相关程度,能保障用户的搜索体验,搜索query和视频文案存在天然的语义gap,同一query在不同的场景下存在歧义,如何定义云音乐场景下的相关性并进行语义消歧,十分重要。

排序部分包含特征与模型的构建,基于云音乐自研的snapshot平台,可以便捷的构建无特征穿越的实时样本,进行在线特征抽取及数据落盘,模型经历了单目标到多目标的优化迭代。重排和策略是最后的一环,负责结果的多样性打散及可解释性文案的组装,也支持运营的case干预。

云音乐的视频搜索之前一直处于基础版本阶段,算法层面未经历迭代优化。文本将结合上述重难点,具体从搜索相关性和排序来阐述下优化的方案与成效。召回部分会提供一个简要的技术分享,不作为本文的重点。

2. 相关性

相关性是搜索流程中十分重要的模块,它负责确保搜索出来的结果和搜索query是相关的,“相关”不仅体现在word-level的匹配上,也体现在semantic-level层面,它是一种用户的主观感受,缺乏一个通用的客观标准。 在不同业务场景下,搜索相关性的定义是不同的,需要根据具体的业务认知,给出符合用户体验的档位定义。有别于ctr任务,相关性天然缺失样本标签,是否点击不能用于直接衡量query与item的相关性,因为用户的点击行为还会受到活动、位置、新奇等其他因素的影响,因此需要根据相关性准则,进行人工数据的标注,但是深度模型的训练依赖大量的标注样本集,不可能全部由人工来标注。在模型层面,大家熟知的文本匹配领域内的模型,比如representation-based和interaction-based模型,都可以迁移用于query和item的相关性建模,但考虑到线上inference的效率和rt限制,需要在效果和效率上进行折中。 如何利用有限的人工标注集,采用弱监督的方式构建一个高效的线上模型,是该任务的挑战所在。

2.1 定义与评估

在云音乐搜索场景下,我们根据音乐领域内关联知识和用户的常见的意图种类,将相关性分拆为以下三个子维度:

  • 文本相关性

    • 指搜索结果中包含搜索query,即term匹配,搜索结果中包含query中的核心词汇
  • 语义相关性

    • 指搜索结果与query语义相关,可以宽泛认为是常识相关,如歌手名和单曲名、专辑名、风格类型、国家语言、节目、平台等相关
    • 例如 “晴天” vs “周杰伦”、“刘德华” vs “四大天王”、“会不会” vs “小乐哥”、“会不会” vs “陈绮贞”、“刘聪” vs “中国有嘻哈”
  • 意图匹配

    • query中包含具体歌曲、艺人、歌单、专辑、歌词等实体意图时,资源中对应意图也该一致
    • 例如:”周杰伦 晴天” vs “视频(xx翻唱 晴天)”,这种情况认为是意图不一致,用户想搜的应该是 周杰伦演唱或者出演的晴天

结合以上三个子维度,我们将音乐相关性定义为四个档位,具体为:

  • good档位(最相关档位)

    • term匹配 & 语义相关 & 意图匹配:示例:query(周杰伦 晴天) | 单曲(周杰伦-叶惠美-晴天)、query(周杰伦 晴天) | video(周杰伦演唱会live现场演唱《晴天》
    • 特殊说明:对于艺人,例如 hehe vs 田馥甄,虽然term不匹配,但的确是同一个人,这种case也属于good档位
  • fair-good档位(次相关档位)

    • term不匹配 & 语义相关 & 意图匹配:示例:query(hebe)| 艺人(S.H.E)
    • term不匹配 & 语义相关 & 意图不匹配:示例:query(周杰伦 晴天)| 视频(xx翻唱 晴天)
    • term匹配 & 语义相关 & 意图不匹配:示例:query(晴天)| 视频(xx翻唱 晴天)
  • fair-fair档位(中立档位)

    • term匹配 & 语义不相关 & 意图匹配:示例:query(晴天)| 单曲(我的新鲜女友晴天版)
    • term匹配 & 语义不相关 & 意图不匹配:示例:query(晴天)| 视频(kms.netease.com/article/279…

      [9] Wang X, Li W, Cui Y, et al. Click-through rate estimation for rare events in online advertising[M]//Online multimedia advertising: Techniques and technologies. IGI Global, 2011: 1-12.

      [10] CTR神经网络特征交叉汇总mp.weixin.qq.com/s__biz=Mzg4…

      [11] Zhao Z, Hong L, Wei L, et al. Recommending what video to watch next: a multitask ranking system[C]//Proceedings of the 13th ACM Conference on Recommender Systems. 2019: 43-51.

      [12] Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 1137-1140.

      [13] Kendall A, Gal Y, Cipolla R. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7482-7491.

      [14] Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 269-278.

      本文发布自网易云音乐技术团队,文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位,如果你准备换工作,又恰好喜欢云音乐,那就加入我们 staff.musicrecruit@service.netease.com

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

2023-12-10 9:02:14

AI教程

机器学习理论导引笔记目录

2023-12-10 9:11:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索