推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能( 四 )


2022-04-13 :云知声登顶中文医疗信息处理挑战榜CBLUE 2.0:https://baijiahao.baidu.com/s?id=1729960390071520105&wfr=spider&for=pc
2022-05月份: 艾登&清华团队在中文医疗信息处理挑战榜喜创佳绩:https://www.cn-healthcare.com/articlewm/20220606/content-1372998.html
1.可以看到在CBLUE榜单上,ERNIE最先刷榜登顶,后续有一些别的团队再更新刷榜 。通过模型对比,我相信ERNIE一定是NLP领域前沿模型,效果性能都很优越 。而后续新榜单模型,在算法模型的优化侧重点可能没那么大,感觉更多的会对数据集的处理上下了很大功夫 。模型差不多情况下,不同数据增强等技术影响还是比较大的,然后不断迭代 。
2.看到paddlenlp已经推出了:pipelines面向 NLP 全场景为用户提供低门槛构建强大产品级系统的能力,通过一种简单高效的方式搭建一套语义检索系统,使用自然语言文本通过语义进行智能文档查询 。
因此引出了一个问题:关于持续学习
目前看到在paddlenlp 提供了一些数据优化的方法:如:AITrust等可信分析,以及BML平台上看到的智能标注(或者个人依赖ERNIE生成的教师模型),来提供相对较高质量的标注数据 。
但感觉在模型迭代过程中更多的是点状,是靠人工进行一个个串行起来 。希望可以出现一个持续学习模型的流程(自动化)和这些技术结合起来,还是有很大意义的 。
项目链接:https://aistudio.baidu.com/aistudio/projectdetail/4622139?contributionType=1fork一下自己跑下项目即可,由于内容过多这里就不全部写出来了 。
【推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能】

经验总结扩展阅读