推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能( 三 )


推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

文章插图
参考链接:https://www.spaces.ac.cn/archives/7533
https://zhuanlan.zhihu.com/p/428131762
https://zhuanlan.zhihu.com/p/365815861
https://blog.csdn.net/wxc971231/article/details/121184091
0.2.2 LIME算法论文: Lime: "Why Should I Trust You?": Explaining the Predictions of Any Classifier, Marco Tulio Ribeiro et al. 2016 https://arxiv.org/abs/1602.04938
尽管被广泛采用,机器学习模型仍然主要是黑匣子 。然而,了解预测背后的原因对于评估信任非常重要,如果一个人计划根据预测采取行动,或者在选择是否部署新模型时,这是至关重要的 。这种理解还提供了对模型的洞察力,可用于将不可信的模型或预测转换为可信的模型 。在这项工作中,我们提出了 LIME,这是一种新颖的解释技术,通过在预测周围学习可解释的模型,以可解释和忠实的方式解释任何分类器的预测 。我们还提出了一种通过以非冗余方式呈现具有代表性的个体预测及其解释来解释模型的方法,将任务定义为子模块优化问题 。我们通过解释文本(例如随机森林)和图像分类(例如神经网络)的不同模型来展示这些方法的灵活性 。我们通过模拟和人类受试者的新实验展示了解释的效用,在各种需要信任的场景中:决定是否应该信任预测、在模型之间进行选择、改进不可信的分类器以及确定为什么不应该信任分类器.
Local: 基于想要解释的预测值及其附近的样本,构建局部的线性模型或其他代理模型;
Interpretable: LIME做出的解释易被人类理解 。利用局部可解释的模型对黑盒模型的预测结果进行解释,构造局部样本特征和预测结果之间的关系;
Model-Agnostic: LIME解释的算法与模型无关,无论是用Random Forest、SVM还是XGBoost等各种复杂的模型,得到的预测结果都能使用LIME方法来解释;
Explanations: LIME是一种事后解释方法 。
参考链接:https://cloud.tencent.com/developer/news/617057
https://blog.csdn.net/weixin_42347070/article/details/106455763
https://blog.csdn.net/weixin_42347070/article/details/106076360
0.2.3 Quantifying Attention Flow in TransformersRollout: Quantifying Attention Flow in Transformers, Abnar et al. 2020 https://arxiv.org/abs/2005.00928
在 Transformer 模型中,“self-attention”将来自参与嵌入的信息组合到下一层焦点嵌入的表示中 。因此,在 Transformer 的各个层中,来自不同令牌的信息变得越来越混合 。这使得注意力权重在解释探测时变得不可靠 。在本文中,我们考虑通过自我注意来量化这种信息流的问题 。我们提出了两种在给定注意力权重、注意力推出和注意力流的情况下将注意力近似于输入令牌的方法,作为使用注意力权重作为输入令牌的相对相关性时的事后方法 。我们表明,这些方法对信息流给出了互补的观点,并且与原始注意力相比,
推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

文章插图
参考链接https://blog.csdn.net/Western_europe/article/details/109611695
1.项目主要内容:
推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

文章插图
推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

文章插图
7.总结各个方法对比可以看每个章节的小结
总结下来:实例级证据分析方法RepresenterPointModel和FeatureSimilarityModel整体取得效果更佳,主要原因在于可以判别出需要标注的数据,这样在部分样本下就能取得更好的效果 。
github提了一个issue关于PaddleNLP在持续学习这块的迭代期待:https://github.com/PaddlePaddle/PaddleNLP/issues/3395
问题背景:2021-11-29 :百度ERNIE-Health登顶中文医疗信息处理CBLUE榜单冠军:https://baijiahao.baidu.com/s?id=1717731573139745403&wfr=spider&for=pc

经验总结扩展阅读