QQ看点日报内容优化基于BERT的热点召 - 报纸定位

TUhjnbcbe - 2022/5/28 12:36:00

福州白癜风医院 http://pf.39.net/bdfyy/bjzkbdfyy/140721/4429412.html

关于作者

颜锐荣，腾讯信息流平台产品部开发二组员工

导语I基于BERT搭建了看点日报热点召回系统，大大提升了看点日报热点内容量等核心指标，本文将会详解看点日报热点召回系统的总体框架及核心方法。

一、业务背景

看点日报旨在为用户提供新热、优质的文章，对热点事件及文章的及时捕捉有着非常强的需求，从海量文章中人工发现热点文章无疑是巨大的运营成本，所以自动发掘热点文章是必要的需求。而发掘热点事件的时效性、热点事件的覆盖度、文章聚合成事件的效果、热点事件召回文章的召准率、热点文章的质量等是热点召回系统的核心指标。我们通过高频实时爬取大量互联网数据，以及基于BERT模型进行热点事件聚类及文章标题匹配等方式，有效提升我们热点文章召回系统的各项核心指标。

-在热点文章召回量方面，每天召回热点文章的数量从1K+上升到1W+。每天看点内被启用的文章数量为8W左右，其中有超过10%的文章会被我们的热点系统召回作为热点文章。

-在召准情况方面，在找最match标题的测试中，我们基于BERT模型准确率高达98.4%，能召回看点中被启用文章的热点事件比例也高达93.5%。

二、whyBERT？

在应用BERT之前，我们实现了一版BiLSTM-DSSM的模型，但由于准确率不够高被弃用。在找最match的标题测试中，BERT与BiLSTM-DSSM的效果对比如下：

BERT的原理在网上已经有很多详细的资料，这里就不再重复，本小节简单描述BERT有哪些强大的优势使它能比LSTM等其它模型强大。

优势1：BERT采用pre-train+fine-turning的训练模式，基于超大量语料进行pre-train，在pre-train过程BERT已经能学好单词、句法、语义等特征。具体任务只需用较少量的数据进行fine-truning。像我们的任务需要标注语料进行训练，提供超大量的标注数据是难以实现的，而使用BERT则能以较少量的标注数据完成好我们的训练任务。

优势2：BERT是双向语言模型，拥有上下文信息，相比GPT（单向语言模型）和ELMO（粗暴的双向语言模型，前向和后向简单相加），BERT有得天独厚的优势。

优势3：BERT采用Transformer作为特征提取器，在Transformer诞生之前，RNN占据着NLP领域的主导地位。而相比RNN系列的特征提取器，Transformer具有以下优势：

1.RNN不可并行，BERT可并行

2.RNN很难捕捉长序列的依赖关系，Transformer可以

RNN结构如下,从h[t-1]到h[t]经过激活函数，变化极大，在距离较远的传递过程会产生梯度消失和梯度爆炸。

为了解决这一问题，又提出LSTM等RNN的变种，其结构如下，从下面公式中可以看出细胞状态从C[t-1]到C[t]只经过线性的变化，不会马上有很大的变化。但当C[x]与C[y]相距很远时，C[x]与C[y]也很可能变得完全不相关，C[x]的变化可能不会对C[y]有太大影响，从而丢失很远的信息。

而Transformer每个位置都公平地相互做selfattention，selfattention中任意位置之间进行比较，长度都只有1，因此无论序列多长都不会出现信息丢失的现象。3.基于selfattention的Transformer是更强的序列特征提取器，selfattention=探索序列内部的关系，对每个位置提取q、k、v向量，通过Attention公式计算当前位置对其他位置的