基于树结构递归神经网络的推特谣言检测

作者&投稿：蛮贸（若有异议请与网页底部的电邮联系）

~ 在谣言检测研究方面，目前很少有基于谣言传播结构的方法。一些基于核的方法用来建模传播树的结构，通过对比树的相似性可以区分谣言和非谣言，但是不能直接分类一棵树，而是需要与其他树两两对比。
。
在本文中提出使用递归神经网络（Recursive Neural networks,RvNN）来建模和学习谣言的传播结构。RvNN本身用来学习段落或句子的语法和语义表示，与文本解析不同的是，我们模型的输入是一棵源自源推文的传播树，而不是单个句子的解析树，树的节点是一个响应的帖子而非单个词。通过沿着树形结构的递归特征学习过程，可以共同捕获帖子的内容语义及其之间的响应关系。

那么，为什么这种神经模型能更好地完成谣言检测任务呢？分析发现，推特可以通过用户分享观点、猜测和证据来“自我纠正”一些不准确的信息。举例来说，下图展示了一个假谣言和真谣言的传播树：

结构不敏感的方法基本上依赖于文本中不同立场的相对比例，在这样的线索不清晰的情况下，就不能很好地发挥作用。然而，可以看到，当一个帖子否认了虚假谣言时，往往会得到支持或肯定的回复，证实了谣言的否认；相反，对真实谣言的否认往往会引发质疑或否认。这一观察结果可能暗示了一个更普遍的假设，即回复者倾向于不同意(或质疑)那些支持虚假谣言或否认真实谣言的人，同时也倾向于同意那些否认虚假谣言或支持真实谣言的人。同时，一个回复，通常是响应其直接祖先（也就是所回复的帖子）而不是直接响应源推文（即传播树的根节点）。递归网络自然地对这些结构进行建模，以学习捕获谣言指示信号，并通过递归聚合来自不同分支的信号来增强其表示。

本文采用的RvNN模型分为两种，bottom-up(BN)模型和top-down(TD)模型，通过不同方式来表示传播树结构。这种架构的重要优点是，在给定传播树的所有路径的连接和方向的情况下，可以通过递归有选择地优化节点特征。

一个谣言检测数据集定义为集合，每个包含源推文以及所有按时间顺序排列的相关响应推文，也就是说。需要注意的是，尽管推文是按时间顺序标注的，但它们之间基于回复或转发关系存在联系，可以形成传播树结构，并以为根节点。谣言检测问题被定义为分类任务，也就是学习一个分类器，属于四个细粒度的类：non-rumor,false rumor, true rumor和unverified rumor。

根据方向考虑的树结构分为两种：
①Bottom-up树的回复节点永远指向被回复的节点，叶子节点没有任何回复，用表示，其中，对于节点，存在表示回复；
②Top-down树符合信息传播的方向，表示信息从流向，看到了并给留下了一个回复。

RvNN的原始版本针对句子解析二叉树，每个节点表示的计算与其直接子节点关联在一起。举例来说，下图展示了RvNN的结构，对应图左边的解析树：

叶子节点是输入句子中词的word embedding。用表示一个父亲节点，它的两个子节点为和，那么父亲节点的表示的计算过程为，是激活函数，是参数，这个过程被在所有节点上递归地执行，学习到的节点表示可以被用来进行各种分类任务。

自下而上模型的核心思想是通过递归访问每个节点，从底部的叶子到顶部的根，为每个子树生成特征向量，最终聚合得到顶部根节点的表示作为树的全局表示。一棵传播树及其对应的RvNN计算过程如下图(a),(b)所示：

每个节点的表示是对应回复的tf-idf向量。在这里每个节点都有一个输入向量，并且节点的子节点数量不一定是相同的。在本文中选用拓展GRU作为隐层单元。使用表示节点的直接子节点集合，节点的隐状态计算过程为：

是原始输入向量，用来对进行仿射变换，是GRU的参数，代表哈达玛积。不了解GRU可以参考：人人都能看懂的GRU 。

最终使用根节点隐状态进行分类：

Top-down RvNN旨在利用自顶向下树的结构来捕获用于对谣言进行分类的复杂传播模式，其计算过程如上图(c)所示。每个节点的表示是通过组合它自己的输入和它的父节点而不是子节点来计算的，这与Bottom-up模型不同。

使用代表节点的父亲节点，节点的隐状态计算过程如下：

然后对叶子节点的表示进行max-pooling得到进行分类，这可以帮助从所有传播路径中捕获最有效的指示性特性：

我们可以推测，Top-down模型会更好。在Bottom-up的情况下最终的输出依赖于根节点的表示，并且它的信息损失比Top-down模型要大。因为在Top-down的情况下，通过不同传播路径嵌入到叶子节点的表示可以通过pooling进行整体地合并。

采用平方损失来训练并进行L2正则化：

是类别的数目。使用Adagrad进行训练，使用均匀分布初始化模型参数，词典大小为5000，隐层状态与embedding大小为100。

对比了多个baseline的效果：

谣言的早期检测测试：

下面是一个被Bottom-up和Top-down模型都检测到的一个假谣言的例子：

用python做量化交易要学多久(4天学会python量化交易)
猪八戒网猪八戒网(zbj.com)创建于2006年,现已形成猪八戒网、天蓬网和线下八戒工场的“双平台+一...决策树、随机森林、回归以及神经网络、测试集以及评价标准Python机器学习常用库scikit-learn、数据预处理

python入职阿里要学多久(阿里招python吗)
猪八戒网猪八戒网(zbj.com)创建于2006年,现已形成猪八戒网、天蓬网和线下八戒工场的“双平台+一...决策树、随机森林、回归以及神经网络、测试集以及评价标准Python机器学习常用库scikit-learn、数据预处理

和政县15220992540： 一种网络模式的分析方法？
才旦律奥罗： 1.是从一批数据中寻找普遍关系的过程.它逐渐成为许多学科的核心,从神经网络到所谓句法模式识别,从统计模式识别到机器学习和数据挖掘,模式分析的应用覆盖了从生物信息学到文档检索的广泛领域,从复杂的生物信息学到相对简单的文档检索等 2.包含了若干基于核的算法,从最简单的到较复杂的系统,例如核偏序最小二乘法、正则相关分析、支持向量机、主成分分析等 3.描述了若干核函数,从基本的例子到高等递归核函数、从生成模型导出的核函数(如HMM)和基于动态规划的串匹配核函数,以及用于处理文本文档的特殊核函数.

和政县15220992540： 请以通俗易懂的方式介绍一下“哥德尔不完全性定理” - ？
才旦律奥罗： 哥德尔定理是数理逻辑中的一个定理,1931年奥地利逻辑、数学家克尔特.哥德尔(Kurt Godel)发现并证明的,这个定理彻底粉碎了希尔伯特的形式主义理想.为理解这个定理及其意义,需要相当的数理逻辑和集合论知识.要把这些预备知识都...

和政县15220992540： 洗头发后可以用吹风机吗? - ？
才旦律奥罗： 因为啤酒中的蛋白质可以溶解头发上的一些溶于3有机溶剂的物质所以了啤酒就洗头可以去头屑

和政县15220992540： 百度贴吧排名问题? - ？
才旦律奥罗： 应该包括很多因素,如IP流量、发帖数量、点击率等.

和政县15220992540： (50分送上)马哲作业,大家帮帮忙人工智能和人脑熟犹?为什么?? ？
才旦律奥罗： 近50年来,人工智能走的是一条曲折发展的道路.1990年代初,研究者深感人工智... 而只是根据物质基础和客观依据进行简化、抽象和模拟. 神经网络的基础结构更类似...

你可能想看的相关专题

星空见康网

基于树结构递归神经网络的推特谣言检测

你可能想看的相关专题