关于作者
颜锐荣,腾讯信息流平台产品部开发二组员工
导语I基于BERT搭建了看点日报热点召回系统,大大提升了看点日报热点内容量等核心指标,本文将会详解看点日报热点召回系统的总体框架及核心方法。
一、业务背景看点日报旨在为用户提供新热、优质的文章,对热点事件及文章的及时捕捉有着非常强的需求,从海量文章中人工发现热点文章无疑是巨大的运营成本,所以自动发掘热点文章是必要的需求。而发掘热点事件的时效性、热点事件的覆盖度、文章聚合成事件的效果、热点事件召回文章的召准率、热点文章的质量等是热点召回系统的核心指标。我们通过高频实时爬取大量互联网数据,以及基于BERT模型进行热点事件聚类及文章标题匹配等方式,有效提升我们热点文章召回系统的各项核心指标。
-在热点文章召回量方面,每天召回热点文章的数量从1K+上升到1W+。每天看点内被启用的文章数量为8W左右,其中有超过10%的文章会被我们的热点系统召回作为热点文章。
-在召准情况方面,在找最match标题的测试中,我们基于BERT模型准确率高达98.4%,能召回看点中被启用文章的热点事件比例也高达93.5%。二、whyBERT?
在应用BERT之前,我们实现了一版BiLSTM-DSSM的模型,但由于准确率不够高被弃用。在找最match的标题测试中,BERT与BiLSTM-DSSM的效果对比如下:
BERT的原理在网上已经有很多详细的资料,这里就不再重复,本小节简单描述BERT有哪些强大的优势使它能比LSTM等其它模型强大。
优势1:BERT采用pre-train+fine-turning的训练模式,基于超大量语料进行pre-train,在pre-train过程BERT已经能学好单词、句法、语义等特征。具体任务只需用较少量的数据进行fine-truning。像我们的任务需要标注语料进行训练,提供超大量的标注数据是难以实现的,而使用BERT则能以较少量的标注数据完成好我们的训练任务。
优势2:BERT是双向语言模型,拥有上下文信息,相比GPT(单向语言模型)和ELMO(粗暴的双向语言模型,前向和后向简单相加),BERT有得天独厚的优势。
优势3:BERT采用Transformer作为特征提取器,在Transformer诞生之前,RNN占据着NLP领域的主导地位。而相比RNN系列的特征提取器,Transformer具有以下优势:
1.RNN不可并行,BERT可并行
2.RNN很难捕捉长序列的依赖关系,Transformer可以
RNN结构如下,从h[t-1]到h[t]经过激活函数,变化极大,在距离较远的传递过程会产生梯度消失和梯度爆炸。
为了解决这一问题,又提出LSTM等RNN的变种,其结构如下,从下面公式中可以看出细胞状态从C[t-1]到C[t]只经过线性的变化,不会马上有很大的变化。但当C[x]与C[y]相距很远时,C[x]与C[y]也很可能变得完全不相关,C[x]的变化可能不会对C[y]有太大影响,从而丢失很远的信息。
而Transformer每个位置都公平地相互做selfattention,selfattention中任意位置之间进行比较,长度都只有1,因此无论序列多长都不会出现信息丢失的现象。3.基于selfattention的Transformer是更强的序列特征提取器,selfattention=探索序列内部的关系,对每个位置提取q、k、v向量,通过Attention公式计算当前位置对其他位置的