PSA 谣言检测——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》( 三 ) _生活百科

具体来说，对于发布者 $u$ ，我们定义了 $u$ 在class $c$ 下的 tendency score ：
$\frac{ \text{ (microblogs posted by u under class c)}}{\text{(microblogs posted by u)}} $
Fig.7 显示，大多数发布者在一个特定类别上的得分要么接近 $0$ ，要么接近 $1$ ，即，大多数发布者倾向于在一个单一的真实性标签下发布微博，这验证了我们关于发布者风格一致性的假设。
4.2 Content-Based Microblog Encoding在每个数据集中，所有的源文章和评论构成了一个大小为 |V| 的词汇表。在之后，我们将每个源特征特征 $\mathbf{r}_{i} \in \mathbb{R}^{|V|}$ 及其相关评论特征 $\mathbf{r}_{i}^{j} \in \mathbb{R}^{|V|}$ 表示为相应源特征或评论中所有 one-hot word vectors 的和。
RootText: Source post 是经过事实核查的，所以可以直接使用Souce Post 作为每个微博实例 $T_{i}$ 的表示—— $\mathbf{h}_{i}:=\mathbf{r}_{i}$
MeanText：我们还建议考虑用户的评论，以更稳健的可信度测量。在这里，我们采用均值池法将源帖子和评论特征压缩为微博表示：
$\mathbf{h}_{i}:=\frac{\mathbf{r}_{i}+\sum\limits _{j=1}^{k} \mathbf{r}_{i}^{j}}{k+1}$
我们获得了基于 RootText 或Meant的微博 $T_{i}$ 编码 $\mathbf{h}_{i} \in \mathbb{R}^{|V|}$ ，并通过具有 ReLU 激活函数的两层全连接神经网络提取高级特征 $\tilde{\mathbf{h}}_{i} \in \mathbb{R}^{n}$ 。然后，我们通过将 $\tilde{\mathbf{h}}_{i}$ 通过输出维数 $|\mathcal{C}|$ 的最终全连接层，防止过拟合进行精度预测。
4.3 Publisher Style Aggregation如 4.1 节所示，在极具影响力的 source post 中，写作立场和可信度在固定的时间框架内保持相对稳定。受此启发，我们进一步提出了Publisher Style Aggregation（PSA），这是一种可推广的方法，它联合利用每个发布者产生的多个微博实例，并提取独特的发布者特征，以增强在每个微博中学习到的本地特征。更具体地说，
(1) 查找每个发布者生成的一组微博实例；(2) 通过聚合这些源帖子的文本特征学习发布者的发布者风格表示；(3) 增强每个微博的表示$\tilde{\mathbf{h}}_{i}$；
Publisher Style Modeling
假设发布者 $u_{i}$ 已经产生了 $m_{i} \geq 1$ 微博实例，相应的源帖子表示为 $\mathcal{P}\left(u_{i}\right)= \left\{p_{k} \mid u_{k}=u_{i}, k=1, \ldots, N\right\}$ ；注意，在训练期间只使用可访问的数据。我们将第 $j$ 个帖子 $p_{i}^{j} \in \mathcal{P}\left(u_{i}\right)$ 视为一个最大长度为 $L$ 的词标记序列。然后，我们构造了一个基于可训练的 $d$ 维词嵌入的嵌入矩阵 $\mathbf{W}_{i}^{j} \in \mathbb{R}^{L \times d}$ 。我们聚合 $u_{i}$ 的所有后嵌入矩阵 $\mathbf{H}_{i} \in \mathbb{R}^{L \times d}$ ，得到相应的 publisher matrix $\mathbf{H}_{i} \in \mathbb{R}^{L \times d}$ 如下：
$\mathbf{H}_{i}=\operatorname{AGGR}\left(\left\{\mathbf{W}_{i}^{j}\right\}_{j=1}^{m_{i}}\right),$
其中， AGGR 运算符可以是 MEAN 或 SUM 。
为了捕获 high-level publisher 的特征，我们对每个 $\mathbf{H}_{i}$ 应用卷积来提取潜在的发布者风格的特征。具体来说，我们使用三个具有不同窗口大小的卷积层来学习具有不同粒度的特征。每一层由F滤波器组成，每个过滤器输出一个特征映射 $\mathbf{f}_{*}=\left[f_{*}^{1}, f_{*}^{2}, \ldots, f_{*}^{L-k+1}\right]$ ，与$f_{*}^{j}=\operatorname{ReLU}\left(\mathbf{W}_{f} \cdot \mathbf{H}_{i}[j: j+k-1]+b\right)$
其中 $\mathbf{W}_{f} \in \mathbb{R}^{k \times d}$ 为卷积核， $k$ 为窗口大小， $b \in \mathbb{R}$ 为偏差项。我们执行最大池化来提取每个 $\mathbf{f}_{*}$ 的最显著值，并将这些值堆栈以形成一个样式特征向量的 $\mathbf{s} \in \mathbb{R}^{F}$ 。然后，我们将三个 CNN 层产生的 $\mathbf{S}_{*}$ 连接起来，获得 $\tilde{\mathbf{s}}_{i} \in \mathbb{R}^{3 F}$：

PSA 谣言检测——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》( 三 )

经验总结扩展阅读

清点庞大的“斑点”家族

孩子自制力差怎么解决

修齐的寓意是什么？

路演ppt什么意思

什么几什么几的成语几的成语

2022年7月13日摆渡好吗 2022年7月13日摆渡黄道吉日

摆脱魔咒走出眼部保养5大误区

遇见消耗你的人余生，和这样的人搭台，我们会遇见更好的自己

绿壳蛋比白壳蛋有营养吗

咱就是说什么网络梗

kiki小魔女塔罗|射手座接下来3个月运势：难以把控的无力感，试图改变却无力

魅力紧身牛仔裤搭配白T真显活力，让小姐姐充满了少女感

怎么挽留白羊男简单几招让你将其追回来

乌蛇蚂蚁胶囊多少钱,乌蛇木瓜胶囊多少钱一盒

口红|皮肤偏黄MM最爱用的口红推荐：选择这些口红让你显白且上镜

有深意的句子说说心情短语

怎么样训练孩子的专注力

三十岁女人的五大保湿程序

2023年8月29日养花吉日一览表 2023年8月29日养花好吗

学生会工作总结怎么写这里有方法和范文