前瞻经济学人APP 研究皮肤癌的图像数据库遭吐槽:肤色太白了!


前瞻经济学人APP 研究皮肤癌的图像数据库遭吐槽:肤色太白了!

【前瞻经济学人APP 研究皮肤癌的图像数据库遭吐槽:肤色太白了!】
近日 , 根据一项新的研究 , 在一个公共皮肤图像数据集(用于训练算法以检测皮肤问题)中 , 没有包含足够多肤色的信息 。 在提供肤色信息的数据集中 , 只有极少数图像的肤色较深 。 因此使用这些数据集构建的算法 , 对于非白人来说可能不那么准确 。
研究检查了21个可免费访问的皮肤状况图像数据集 。 结合起来 , 它们包括了超过100000张图像 。 这些图像中只有1400多张附加了有关患者种族的信息 , 只有2236张附加了有关肤色的信息 。
利用这些数据训练算法很可能存在偏差:在具有肤色信息的图像中 , 只有11个属于“最暗肤色”类别 。 没有来自具有非洲、非洲裔加勒比或南亚背景的患者图像 。
斯坦福大学皮肤病学临床学者表示 , 从少数报告肤色分布的论文中看到 , 这些论文确实显示出较深肤色的代表性不足 。
当数据集中的图像公开可用时 , 研究人员可以查看相关肤色 。 但这可能也很困难 , 因为照片可能与现实生活中的肤色不完全匹配 。 最理想的情况是在临床访问时注意患者肤色 , 然后可以在该患者皮肤问题的图像进入数据库之前对其进行标记 。
仔细检查这些图像集很重要 , 因为它们经常被用来构建算法来帮助医生诊断患有皮肤病的患者 , 其中一些皮肤病(如皮肤癌) , 如果不及早发现就会更加危险 。
如果算法只在浅色皮肤上进行过训练或测试 , 那么它们对其他人来说就不会那么准确 。 研究也表明 , 仅对肤色较浅的人拍摄图像 , 进行训练的程序可能对肤色较深的人来说不那么准确 , 反之亦然 。
研究人员希望看到更多深色皮肤状况的例子 。 提高数据集的透明度和清晰度 , 将帮助研究人员跟踪更多样化的图像集进展 , 有望出现更公平的人工智能工具 。
题为Characteristics of publicly available skin cancer image datasets: a systematic review的相关研究论文发表在《柳叶刀-数字医疗》上 。
前瞻经济学人APP资讯组
论文原文:
https://www.thelancet.com/journals/landig/article/PIIS2589-7500(21)00252-1/fulltext

    经验总结扩展阅读