报纸定位

首页 » 常识 » 常识 » QQ看点日报内容优化基于BERT的热点召
TUhjnbcbe - 2022/5/28 12:36:00
福州白癜风医院 http://pf.39.net/bdfyy/bjzkbdfyy/140721/4429412.html

关于作者

颜锐荣,腾讯信息流平台产品部开发二组员工

导语I基于BERT搭建了看点日报热点召回系统,大大提升了看点日报热点内容量等核心指标,本文将会详解看点日报热点召回系统的总体框架及核心方法。

一、业务背景

看点日报旨在为用户提供新热、优质的文章,对热点事件及文章的及时捕捉有着非常强的需求,从海量文章中人工发现热点文章无疑是巨大的运营成本,所以自动发掘热点文章是必要的需求。而发掘热点事件的时效性、热点事件的覆盖度、文章聚合成事件的效果、热点事件召回文章的召准率、热点文章的质量等是热点召回系统的核心指标。我们通过高频实时爬取大量互联网数据,以及基于BERT模型进行热点事件聚类及文章标题匹配等方式,有效提升我们热点文章召回系统的各项核心指标。

-在热点文章召回量方面,每天召回热点文章的数量从1K+上升到1W+。每天看点内被启用的文章数量为8W左右,其中有超过10%的文章会被我们的热点系统召回作为热点文章。

-在召准情况方面,在找最match标题的测试中,我们基于BERT模型准确率高达98.4%,能召回看点中被启用文章的热点事件比例也高达93.5%。

二、whyBERT?

在应用BERT之前,我们实现了一版BiLSTM-DSSM的模型,但由于准确率不够高被弃用。在找最match的标题测试中,BERT与BiLSTM-DSSM的效果对比如下:

BERT的原理在网上已经有很多详细的资料,这里就不再重复,本小节简单描述BERT有哪些强大的优势使它能比LSTM等其它模型强大。

优势1:BERT采用pre-train+fine-turning的训练模式,基于超大量语料进行pre-train,在pre-train过程BERT已经能学好单词、句法、语义等特征。具体任务只需用较少量的数据进行fine-truning。像我们的任务需要标注语料进行训练,提供超大量的标注数据是难以实现的,而使用BERT则能以较少量的标注数据完成好我们的训练任务。

优势2:BERT是双向语言模型,拥有上下文信息,相比GPT(单向语言模型)和ELMO(粗暴的双向语言模型,前向和后向简单相加),BERT有得天独厚的优势。

优势3:BERT采用Transformer作为特征提取器,在Transformer诞生之前,RNN占据着NLP领域的主导地位。而相比RNN系列的特征提取器,Transformer具有以下优势:

1.RNN不可并行,BERT可并行

2.RNN很难捕捉长序列的依赖关系,Transformer可以

RNN结构如下,从h[t-1]到h[t]经过激活函数,变化极大,在距离较远的传递过程会产生梯度消失和梯度爆炸。

为了解决这一问题,又提出LSTM等RNN的变种,其结构如下,从下面公式中可以看出细胞状态从C[t-1]到C[t]只经过线性的变化,不会马上有很大的变化。但当C[x]与C[y]相距很远时,C[x]与C[y]也很可能变得完全不相关,C[x]的变化可能不会对C[y]有太大影响,从而丢失很远的信息。

而Transformer每个位置都公平地相互做selfattention,selfattention中任意位置之间进行比较,长度都只有1,因此无论序列多长都不会出现信息丢失的现象。3.基于selfattention的Transformer是更强的序列特征提取器,selfattention=探索序列内部的关系,对每个位置提取q、k、v向量,通过Attention公式计算当前位置对其他位置的
1
查看完整版本: QQ看点日报内容优化基于BERT的热点召