About

什么是AI准备的数据?

Author Tanmer Tanmer
Tanmer · 2025-07-15发布 · 11 次浏览

本文探讨了AI-Ready数据的概念及其重要性,分析了如何为AI准备数据,涵盖了结构化和非结构化数据的管理,以及知识管理在AI应用中的关键作用。


1. 引言 

在本文中,我们将探索 AI-Ready 数据的概念,了解其含义、重要性以及如何为 AI 准备数据。

2. AI-Ready 数据的重要性

 AI-Ready 数据是实现组织与 AI 的“契合”所需的必要条件。知识管理系统在企业追求从 AI 投资中获得特定收益时变得越来越重要。

为什么 AI-Ready 数据如此重要?

 - 你的数据是企业的差异化来源:通过“调入” AI 到你的组织,你可以保持与竞争对手在同一水平,但你很难在市场中脱颖而出。 
- 数据是AI的“秘密酱”:为了充分利用 AI 的潜力,数据是不可或缺的关键因素。 
- 数据成为组织AI化的关键成功因素之一:了解如何使组织的数据可用以支持 AI 并契合你的需求至关重要。

数据准备现状 

- 在 2023 年 Gartner IT 研究研讨会中,仅有 4% 的受访者表示他们的数据是 AI 准备好的。 
- 而 37% 表示他们已经准备好 AI 准备好的数据,55% 表示“困难重重”。

其他相关调查 

- 一项最近的调查(涉及 334 位首席数据官或相当于职位的人)显示,数据质量是生成式 AI 中实现价值的最大挑战之一。此外,确定使用案例和确保数据策略的重要性也得到了认可。

3. 转换数据管理需求 

AI-Ready 数据并不是一个新概念。在支持预测分析的结构化数据方面,已经投入了大量资源以确保数据质量。随着生成式 AI 的兴起,数据类型变得更加多样化和普及(例如 ChatGPT、Gemini 等)。

结构化数据 vs. 非结构化数据 

- 结构化数据:遵循明确的布局,如支持运营系统的数据库,包含示例:销售交易。 
- 非结构化数据:不遵循标准布局,包括文本、文档和图像。非结构化数据的复杂性使得管理变得困难,但其丰富性往往使 AI 可以从中受益。

结构化数据的管理 

- 组织通常更关注结构化数据的管理和维护,因为这些措施直接关联到创造企业价值的程度:例如,维护一个单一且增广的客户视图、跟踪所有销售交易以及了解员工数量。

非结构化数据的管理 

- 非结构化数据的管理通常是劳神费力的:例如维护 SharePoint 网站中的文档和版本控制、政策文档在 intranet 网站上的存档情况,甚至纸质文档存放于文件柜中。 
- 由于维护非结构化数据的工作量大且难以直接关联到业务价值,因此其通常不受欢迎。

同时需要管理的非结构化数据 

- 随着生成式 AI 对组织的需求增加,同时需要管理和维护结构化和非结构化数据来支持 AI:

 - 使用邮件进行情感分析训练 AI。 
 - 法律事务所利用商业合同进行查询。 
 - 一致性品牌用于营销。 
 - 减少AI模型的潜在偏见。

知识管理的重要性 

- 类似于学习语言的过程,我们在《关于业务准备数据以支持 AI 的博客》中提到过: 
 - 提示工程:如特定情境下的固定短语。 
 - 检索增强记忆(RAG):动态、不断更新的词典或百科全书,可以在任何时候咨询。 
 - 微调:如学习特定语言的高级技巧。 
 - 强化学习(RLHF):如在真实对话中实践语言技能并根据反馈改进。 
 - 从零开始学习:如完全按照你的需求和节奏学习新语言。

知识管理的重要性 

- 类似于语言熟练程度,数据准备以支持 AI 的能力是一个持续的过程。需要不断学习和改进。

4. 调整AI的思考过程 

- 如前所述,AI 已经被广泛用于多年。结构化数据驱动预测分析,支持如销售和供应链预测等业务领域。 
- 在这种背景下,我们对数据进行了分类:结构化数据和非结构化数据(如图像)。

结构化数据的特点 

- 有明确的布局,例如支持运营系统的数据库,包含示例:产品在货架上的识别、Amazon Go 或医疗影像报告。

非结构化数据的特点 

- 使用生成式 AI 支持预测分析时,非结构化数据的应用更加广泛。例如,训练一个 Chatbot 需要对大量图像进行标注和分类。

调整AI的必要性 

- 生成式 AI 对每个组织的影响更为广泛,因此需要更全面地调整AI。

5. 如何准备数据以支持AI:关键方法与数据管理考虑

- 使用以下数据原则来描述支持AI的数据:

 - 准确:确保输出可靠且有用。 
 - 一致:确保AI正确解读你的意图。 
 - 可信赖:确保数据质量高,符合法律和道德要求。 
 - 可访问性:确保数据易于获取。 
 - 可追溯性:确保数据有来源和记录。 
 - 安全与合规:确保数据安全。 
 - 可持续性:考虑AI对环境的影响。

两个关键点 

- 数据量:一个关键挑战是创建和维护足够高质量的数据。WSJ文章指出,AI公司需要大量优质数据来训练模型。 
- 知识管理:这是最重要的因素之一,如何调整数据管理方法以支持AI对于组织至关重要。

---

以上为文章的完整翻译,涵盖了原文的所有主要观点和内容。

提交反馈

资讯 资讯

「数字体验」相关的知识、文章、行业报告和技术创新

厨房庭院 | 项目案例

厨房庭院 | 项目案例

Kitchen Yard 新电子商务网站展示了丰富的厨房产品,提升了用户体验和销售业绩。

Author the-kitchen-yard-project
By 数字体验专家
发布:2025-05-27
德国现代 | 项目

德国现代 | 项目

探讨德国现代汽车的成功故事及其网站重启项目。

Author germany-modern-auto
By 数字体验专家
发布:2025-05-27
终止用户许可协议

终止用户许可协议

本文概述了用户许可协议的主要条款及终止条件。

Author license-termination-agreement
By 数字体验专家
发布:2025-05-27