发布:2026-07-03 浏览:3 次
“深度伪造”一词指代那些看似真实、实则由人工智能生成或篡改的视频、照片、图像或音频。在医学影像领域,AI生成图像的能力正飞速发展,但随之而来的风险也日益凸显——从伪造伤情的保险欺诈,到黑客入侵医院网络、向数字医疗记录注入虚假影像以操纵诊断或制造临床混乱,都可能对医疗安全构成严重威胁。
2026年3月24日,Mickael Tordjman博士及其研究团队在北美放射学会官方期刊《Radiology》上发表了一项多中心国际研究,题为“The Rise of Deepfake Medical Imaging: Radiologists’ Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs”。该研究发现,无论是经验丰富的放射科医生,还是先进的多模态语言大模型,都难以区分AI生成的“深度伪造”X光图像与真实影像,揭示了医疗影像领域面临的重大安全漏洞。
“我们的研究表明,这些深度伪造的X光图像足够逼真,足以欺骗放射科医生——即使他们事先知道数据集中存在AI生成的图像,”研究第一作者Mickael Tordjman博士表示。“这带来了高风险:例如,如果伪造的骨折图像与真实影像无法区分,就可能被用于欺诈性诉讼;如果黑客侵入医院网络、注入合成图像影响患者的诊断,或通过破坏数字医疗记录来制造临床混乱,也将构成重大的网络安全威胁。”
图1解剖结构的真实影像与GPT-4o生成影像对比。
研究共纳入来自六个国家(美国、法国、德国、土耳其、英国和阿联酋)12个不同中心的17名放射科医生,其专业经验从0年到40年不等。研究中的264张X光图像一半为真实影像,另一半由AI生成。研究人员使用两个不同的数据集由放射科医生进行评估,数据集之间无重叠。第一个数据集包含多个解剖部位的真实影像和使用ChatGPT生成的图像;第二个数据集包含胸部X光片,其中一半为真实影像,另一半由斯坦福医学院研究人员开发的开源生成式AI扩散模型RoentGen生成。
当放射科医生不了解研究的真实目的时,仅41%的人可自发识别出AI生成的图像。在被告知数据集中包含合成图像后,放射科医生区分真实与合成X光片的平均准确率为75%。每位放射科医生识别ChatGPT生成图像的准确率在58%至92%之间。同样,四种多模态大语言模型——GPT-4o、GPT-5、Gemini 2.5 Pro和Llama 4 Maverick的准确率介于57%至85%之间。即使是用于生成深度伪造图像的GPT-4o模型,也无法准确识别所有伪造图像,尽管其识别效果明显优于Google和Meta的模型。
放射科医生识别RoentGen生成的合成胸部X光片的准确率在62%至78%之间,大语言模型的准确率在52%至89%之间。放射科医生的从业年限与识别合成X光片的准确性之间无相关性,但肌肉骨骼放射科医生的准确性显著高于其他专科医生。
图2 GPT-4o生成的骨折X线片示例。
研究识别出合成X光片的共同特征:“深度伪造的医学图像往往看起来过于完美,”Tordjman博士说。“骨骼过于光滑,脊柱过于笔直,肺部过于对称,血管模式过于均匀,骨折看起来异常干净,通常仅局限于骨骼的一侧。”
为清晰区分真实与伪造图像并防止篡改,研究人员建议实施先进的数字防护措施,例如在图像中嵌入不可见水印,或在图像采集时自动附加技师关联的加密签名。
“我们可能只看到了冰山一角,”Tordjman博士表示。“这一演变的下一步将是AI生成3D合成图像,如CT和MRI。因此,培训医生和语言大模型准确识别出AI合成图像变得至关重要。”
参考文献
Tordjman M, Yuce M, Ammar A, et al. The Rise of Deepfake Medical Imaging: Radiologists' Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs. Radiology. 2026;318(3):e252094. doi:10.1148/radiol.252094
资讯来源
编译:脑海科技