本文探讨了AI-Ready数据的概念及其重要性,分析了如何为AI准备数据,涵盖了结构化和非结构化数据的管理,以及知识管理在AI应用中的关键作用。
1. 引言
在本文中,我们将探索 AI-Ready 数据的概念,了解其含义、重要性以及如何为 AI 准备数据。
2. AI-Ready 数据的重要性
AI-Ready 数据是实现组织与 AI 的“契合”所需的必要条件。知识管理系统在企业追求从 AI 投资中获得特定收益时变得越来越重要。
为什么 AI-Ready 数据如此重要?
- 你的数据是企业的差异化来源:通过“调入” AI 到你的组织,你可以保持与竞争对手在同一水平,但你很难在市场中脱颖而出。
- 数据是AI的“秘密酱”:为了充分利用 AI 的潜力,数据是不可或缺的关键因素。
- 数据成为组织AI化的关键成功因素之一:了解如何使组织的数据可用以支持 AI 并契合你的需求至关重要。
数据准备现状
- 在 2023 年 Gartner IT 研究研讨会中,仅有 4% 的受访者表示他们的数据是 AI 准备好的。
- 而 37% 表示他们已经准备好 AI 准备好的数据,55% 表示“困难重重”。
其他相关调查
- 一项最近的调查(涉及 334 位首席数据官或相当于职位的人)显示,数据质量是生成式 AI 中实现价值的最大挑战之一。此外,确定使用案例和确保数据策略的重要性也得到了认可。
3. 转换数据管理需求
AI-Ready 数据并不是一个新概念。在支持预测分析的结构化数据方面,已经投入了大量资源以确保数据质量。随着生成式 AI 的兴起,数据类型变得更加多样化和普及(例如 ChatGPT、Gemini 等)。
结构化数据 vs. 非结构化数据
- 结构化数据:遵循明确的布局,如支持运营系统的数据库,包含示例:销售交易。
- 非结构化数据:不遵循标准布局,包括文本、文档和图像。非结构化数据的复杂性使得管理变得困难,但其丰富性往往使 AI 可以从中受益。
结构化数据的管理
- 组织通常更关注结构化数据的管理和维护,因为这些措施直接关联到创造企业价值的程度:例如,维护一个单一且增广的客户视图、跟踪所有销售交易以及了解员工数量。
非结构化数据的管理
- 非结构化数据的管理通常是劳神费力的:例如维护 SharePoint 网站中的文档和版本控制、政策文档在 intranet 网站上的存档情况,甚至纸质文档存放于文件柜中。
- 由于维护非结构化数据的工作量大且难以直接关联到业务价值,因此其通常不受欢迎。
同时需要管理的非结构化数据
- 随着生成式 AI 对组织的需求增加,同时需要管理和维护结构化和非结构化数据来支持 AI:
- 使用邮件进行情感分析训练 AI。
- 法律事务所利用商业合同进行查询。
- 一致性品牌用于营销。
- 减少AI模型的潜在偏见。
知识管理的重要性
- 类似于学习语言的过程,我们在《关于业务准备数据以支持 AI 的博客》中提到过:
- 提示工程:如特定情境下的固定短语。
- 检索增强记忆(RAG):动态、不断更新的词典或百科全书,可以在任何时候咨询。
- 微调:如学习特定语言的高级技巧。
- 强化学习(RLHF):如在真实对话中实践语言技能并根据反馈改进。
- 从零开始学习:如完全按照你的需求和节奏学习新语言。
知识管理的重要性
- 类似于语言熟练程度,数据准备以支持 AI 的能力是一个持续的过程。需要不断学习和改进。
4. 调整AI的思考过程
- 如前所述,AI 已经被广泛用于多年。结构化数据驱动预测分析,支持如销售和供应链预测等业务领域。
- 在这种背景下,我们对数据进行了分类:结构化数据和非结构化数据(如图像)。
结构化数据的特点
- 有明确的布局,例如支持运营系统的数据库,包含示例:产品在货架上的识别、Amazon Go 或医疗影像报告。
非结构化数据的特点
- 使用生成式 AI 支持预测分析时,非结构化数据的应用更加广泛。例如,训练一个 Chatbot 需要对大量图像进行标注和分类。
调整AI的必要性
- 生成式 AI 对每个组织的影响更为广泛,因此需要更全面地调整AI。
5. 如何准备数据以支持AI:关键方法与数据管理考虑
- 使用以下数据原则来描述支持AI的数据:
- 准确:确保输出可靠且有用。
- 一致:确保AI正确解读你的意图。
- 可信赖:确保数据质量高,符合法律和道德要求。
- 可访问性:确保数据易于获取。
- 可追溯性:确保数据有来源和记录。
- 安全与合规:确保数据安全。
- 可持续性:考虑AI对环境的影响。
两个关键点
- 数据量:一个关键挑战是创建和维护足够高质量的数据。WSJ文章指出,AI公司需要大量优质数据来训练模型。
- 知识管理:这是最重要的因素之一,如何调整数据管理方法以支持AI对于组织至关重要。
---
以上为文章的完整翻译,涵盖了原文的所有主要观点和内容。