About

具备人工智能readiness的数据对推进精准医疗至关重要

Author Tanmer Tanmer
Tanmer · 2025-07-11发布 · 17 次浏览

本文探讨了确保精确健康数据具备人工智能准备状态的重要性,介绍了四种方法来提升数据质量、保护隐私和提高机器可读性,以促进AI在医疗领域的应用。

Implementing AI-Ready Data Practices to Promote Protected, Machine Readable, and Well-Defined Precision Health Data


我们采用以下四种方法来确保精确健康数据是AI准备好使用的。这些方法部分受到Data-Centric AI(DCAI)运动的启发,该运动致力于改进用于AI开发的数据实践(例如数据工程)。

1. 构建定义明确的数据集以减少领域知识障碍

由于精确健康数据类型的复杂性,分析它们时通常需要依赖领域特定知识。采用有效的数据文档化协议可以显著降低领域知识障碍。例如,创建包含数据说明、数据收集过程、维护计划、使用意图(例如个人数据的使用和共享方式)以及分发计划的数据表,可以帮助确保数据适当使用。数据生成者和AI/ML模型师还应利用自动化异常检测工具和统计技术(例如Random Cut Forest)来验证数据质量,通过识别异常数据点来提高数据质量。此外,手动数据分析可通过基本分布统计等方法进行,以识别潜在的数据质量问题,并通过提供额外的上下文理解来补充自动化工具。

2. 创建并应用数据保护和隐私原则

患者更有可能提供可靠的数据,当他们相信收集和使用他们的敏感健康信息的机构会适当保护和处理这些信息时。适当的处理包括遵循1996年《美国联邦 health Insurance Portability and Accountability Act (HIPAA)》隐私和安全规则,该规则涵盖了对敏感个人和健康信息的保护。组织还应考虑创建或利用现有数据隐私原则,例如欧盟的一般数据保护条例(GDPR)中概述的原则(例如目的限制、数据最小化、准确性、安全性)。目前美国没有与GDPR相当的联邦法律,但一些州已在其地方层面采用类似立法。例如,加利福尼亚消费者隐私法案和随后的加利福尼亚隐私权法案使消费者了解并控制他们个人信息由哪些企业使用。

最近,《提升隐私技术的创新》(https://www.whitehouse.gov/ostp/news-updates/2022/06/28/advancing-a-vision-for-privacy-enhancing-technologies/)和《合成数据生成的创新》(https://towardsdatascience.com/synthetic-data-generation-at-the-vha-8124989c7183)的进步为使用保护敏感数据进行AI/ML模型开发提供了更大的可能性。新兴的隐私增强技术解决方案,如联邦学习和差分隐私,通过最小化不必要的数据共享、加密或匿名化数据以及在汇总数据中确保保密性来保护个人数据。联邦学习是一种方法,其中多个模型在独立的数据集上迭代训练并组合,避免显式交换训练数据。生成式对抗网络(GANs)驱动的合成数据生成技术已被研究证明能够生成现实的合成图像和表格(数值、文本)数据,从而允许在保护敏感健康数据的同时进行AI/ML模型开发。

3. 测试你的数据的机器可读性

正确准备数据,包括确保其可以被计算机处理,是进行高级分析的关键且往往耗时的过程。为了加快AI/ML建模速度,AI准备好使用的数据应以易于编码环境 ingestion的数据格式和结构提供。数据存储库应提供完整数据集的随机代表子集,以便快速验证数据可读性和适用性。AI/ML开发者可以使用这些随机代表样本来轻松将数据导入编码笔记本环境(如Jupyter和RStudio),并使用pandas和Dplyr等库来了解数据集的基本信息,包括描述性统计、特征和数据类型以及缺失值的 presence。

AI/ML开发者还应考虑使用自动机器学习工具,这些工具会自动化许多机器学习过程的步骤(例如特征选择和模型选择),以加速适用性和探索性分析,并为未来的建模工作提供指导。通过应用这四种AI准备好数据实践,组织可以加快AI/ML研究、发现和利用的步伐,从而推动更精确的健康结果。


提交反馈

资讯 资讯

「数字体验」相关的知识、文章、行业报告和技术创新

厨房庭院 | 项目案例

厨房庭院 | 项目案例

Kitchen Yard 新电子商务网站展示了丰富的厨房产品,提升了用户体验和销售业绩。

Author the-kitchen-yard-project
By 数字体验专家
发布:2025-05-27
德国现代 | 项目

德国现代 | 项目

探讨德国现代汽车的成功故事及其网站重启项目。

Author germany-modern-auto
By 数字体验专家
发布:2025-05-27
终止用户许可协议

终止用户许可协议

本文概述了用户许可协议的主要条款及终止条件。

Author license-termination-agreement
By 数字体验专家
发布:2025-05-27