PSA 谣言检测——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》( 三 )


具体来说 , 对于发布者 $u$ , 我们定义了 $u$ 在class $c$ 下的 tendency score :
$\frac{ \text{ (microblogs posted by u under class c)}}{\text{(microblogs posted by u)}} $
Fig.7 显示 , 大多数发布者在一个特定类别上的得分要么接近 $0$ , 要么接近 $1$ , 即 , 大多数发布者倾向于在一个单一的真实性标签下发布微博 , 这验证了我们关于发布者风格一致性的假设 。
4.2 Content-Based Microblog Encoding在每个数据集中 , 所有的源文章和评论构成了一个大小为 |V| 的词汇表 。在之后 , 我们将每个源特征特征 $\mathbf{r}_{i} \in \mathbb{R}^{|V|}$ 及其相关评论特征 $\mathbf{r}_{i}^{j} \in \mathbb{R}^{|V|}$ 表示为相应源特征或评论中所有 one-hot word vectors 的和 。
RootText: Source post  是经过事实核查的 , 所以可以直接使用Souce Post 作为每个微博实例 $T_{i}$ 的表示—— $\mathbf{h}_{i}:=\mathbf{r}_{i}$
MeanText:我们还建议考虑用户的评论 , 以更稳健的可信度测量 。在这里 , 我们采用均值池法将源帖子和评论特征压缩为微博表示:
$\mathbf{h}_{i}:=\frac{\mathbf{r}_{i}+\sum\limits _{j=1}^{k} \mathbf{r}_{i}^{j}}{k+1}$
我们获得了基于 RootText 或Meant的微博 $T_{i}$ 编码 $\mathbf{h}_{i} \in \mathbb{R}^{|V|}$ , 并通过具有 ReLU 激活函数的两层全连接神经网络提取高级特征 $\tilde{\mathbf{h}}_{i} \in \mathbb{R}^{n}$ 。然后 , 我们通过将 $\tilde{\mathbf{h}}_{i}$ 通过输出维数 $|\mathcal{C}|$ 的最终全连接层 , 防止过拟合进行精度预测 。
4.3 Publisher Style Aggregation如 4.1 节所示 , 在极具影响力的 source post 中 , 写作立场和可信度在固定的时间框架内保持相对稳定 。受此启发 , 我们进一步提出了Publisher Style Aggregation(PSA) , 这是一种可推广的方法 , 它联合利用每个发布者产生的多个微博实例 , 并提取独特的发布者特征 , 以增强在每个微博中学习到的本地特征 。更具体地说 , 
(1) 查找每个发布者生成的一组微博实例;(2) 通过聚合这些源帖子的文本特征学习发布者的发布者风格表示 ;(3) 增强每个微博的表示$\tilde{\mathbf{h}}_{i}$;
Publisher Style Modeling
假设发布者 $u_{i}$ 已经产生了 $m_{i} \geq 1$ 微博实例 , 相应的源帖子表示为 $\mathcal{P}\left(u_{i}\right)= \left\{p_{k} \mid u_{k}=u_{i}, k=1, \ldots, N\right\}$ ;注意 , 在训练期间只使用可访问的数据 。我们将第 $j$ 个 帖子 $p_{i}^{j} \in \mathcal{P}\left(u_{i}\right)$ 视为一个最大长度为 $L$ 的词标记序列 。然后 , 我们构造了一个基于可训练的 $d$ 维词嵌入的嵌入矩阵 $\mathbf{W}_{i}^{j} \in \mathbb{R}^{L \times d}$ 。我们聚合 $u_{i}$ 的所有后嵌入矩阵 $\mathbf{H}_{i} \in \mathbb{R}^{L \times d}$ , 得到相应的 publisher matrix $\mathbf{H}_{i} \in \mathbb{R}^{L \times d}$ 如下:
$\mathbf{H}_{i}=\operatorname{AGGR}\left(\left\{\mathbf{W}_{i}^{j}\right\}_{j=1}^{m_{i}}\right),$
其中 , AGGR 运算符可以是 MEAN 或 SUM 。
为了捕获 high-level publisher 的特征 , 我们对每个 $\mathbf{H}_{i}$ 应用卷积来提取潜在的发布者风格的特征 。具体来说 , 我们使用三个具有不同窗口大小的卷积层来学习具有不同粒度的特征 。每一层由F滤波器组成 , 每个过滤器输出一个特征映射 $\mathbf{f}_{*}=\left[f_{*}^{1}, f_{*}^{2}, \ldots, f_{*}^{L-k+1}\right]$ , 与$f_{*}^{j}=\operatorname{ReLU}\left(\mathbf{W}_{f} \cdot \mathbf{H}_{i}[j: j+k-1]+b\right)$
其中 $\mathbf{W}_{f} \in \mathbb{R}^{k \times d}$ 为卷积核 , $k$ 为窗口大小 , $b \in \mathbb{R}$ 为偏差项 。我们执行最大池化来提取每个 $\mathbf{f}_{*}$ 的最显著值 , 并将这些值堆栈以形成一个样式特征向量的 $\mathbf{s} \in \mathbb{R}^{F}$ 。然后 , 我们将三个 CNN 层产生的 $\mathbf{S}_{*}$ 连接起来 , 获得 $\tilde{\mathbf{s}}_{i} \in \mathbb{R}^{3 F}$:

经验总结扩展阅读