About

关于Dryad的最新动态:数据如何成为人工智能准备好?

Author Tanmer Tanmer
Tanmer · 2025-07-08发布 · 18 次浏览

本文探讨了Dryad如何整理和连接数据,使其成为AI可读的资源,帮助研究人员克服数据复用的瓶颈,以促进AI驱动的科学发现。

如果答案存在于我们已有的数据中,那么研究人员能够从海量现有数据中提取新用途并以 unprecedented规模进行分析吗?人工智能(AI)技术提供了许多令人兴奋的可能性,这些可能性需要 AI 可读数据才能成功。

AI辅助的科学发现需要 AI 可读数据

将 AI 应用于研究数据时,AI 可读数据能够帮助研究人员发现和分析难以手工处理的巨大数据集。无监督学习和自然语言处理(NLP)可以协助研究人员发现并分析传统方法难以处理的数据。AI 模型可以被训练以提取见解、揭示新的模式,并甚至生成“数字准确、可解释且可重复描述自然现象”的描述。

然而,大多数实验室无法独立生成足够数量的训练数据来部署这些模型以获得最佳效果。此外,他们从公共来源聚合的数据缺乏机器可读的元数据、清晰的文件结构和充分的文档支持,这使得这些数据难以有效复用。由于缺乏适当的数据作为输入,研究人员在 AI 应用到科学研究问题时面临瓶颈。

“要使数据驱动的科学有效且可信,需要将数据用于大规模,并从‘基于 silo 的方法’向更网络化的方式进行知识转移。然而,目前大多数公开领域的数据仍然无法复用……主要是因为这些数据对于第三方使用缺乏描述。”(Sansone 等人,2023 年)



Dryad 通过整理和连接使数据 AI 可读

欢迎开放、经过整理的研究数据。AI 可读数据是指经过 Dryad 数据整理员整理,并以易于研究人员利用的方式准备好的数据,以便用于 AI 模型。Dryad 提供了大量此类结构化、文档化的数据。这些数据可以与专家存储库中的数据集和研究人员自己的数据结合,形成全面的数据集,为 AI 驱动的研究提供动力。通过访问“通用ist”平台如 Dryad 这样的“广泛数据源”,并可能从其他地方获取数据,研究人员可以促进“来自多个领域和知识系统的知识融合”,从而实现“更准确的模型和激发好奇心驱动的研究。”Dryad 也是研究人员缺乏昂贵设备、离境或不切实际的现场等障碍时的重要资源。

如何使我们的数据 AI 可读?遵循 FAIR 原则意味着确保数据集组织良好,文档质量高,易于机器抽取和分析。Dryad 通过 数据整理数据连接 实现了 FAIR。

由我们的可靠整理员进行,验证数据文件是否可访问和可使用,提高了元数据质量和完整性,并为作者提供了推荐分享实践的指导。它还确保了数据适合共享,并不包含个人 identifiable、敏感或受版权保护的信息。

我们通过 利用持久标识符最大化 的数据连接,将数据与其他研究输出连接起来,从而构建强大的、机器可读的链接,连接数据及其创作者、资助者和相关输出。


你将如何使用 Dryad 数据?

Dryad 提供了超过 60,000 个覆盖广泛研究领域的数据集,并 采用 CC0 许可证授权使用,为研究人员探索各种领域和方法提供了丰富的信息。数据可通过 Dryad 网站或其 方便的 API 访问。示例包括:

  • 来自不同物种的 DNA 和 RNA 序列可用于 任务。

  • 来自微分测序或 RNA 分析的高通量基因表达数据集适用于

  • 表示蛋白质相互作用的数据集可用于

  • 包含人类受访者对各种主题的调查响应的数据集适用于

  • 文本数据集合,如文章、书籍或社交媒体帖子,可用于自然语言处理任务,如情感分析、主题建模和文本分类。

  • 包含大气变量测量、气候模型输出和天气预报的数值数据集适用于 任务

  • 传感器测得的温度、压力和湿度等物理量的时间序列数据可用于 应用。

  • 包含患者人口统计、治疗方案和结果的数据集适用于

  • 由医学图像(如 MRI、CT 和 histopathology)组成的数据显示可用于

    Dryad 的简便提交表单和严格的数据整理过程使其易于研究人员将数据转化为 AI 可读。此外,研究人员还可以 采取数据准备步骤,使数据集更适用于 AI 应用,例如:

  • 解释或填充缺失值和空白。

  • 去除或标记异常值。

  • 构建全面的数据字典或代码表。

  • 记录数据处理步骤,并发布为机器可读的文件格式。

    你是一位使用 AI 加速发现的研究人员吗? 加入用户组,帮助 Dryad 更好地工作,或者联系以了解更多计划。




提交反馈

博客 博客

「数字体验」相关的知识、文章、行业报告和技术创新