本文探讨了AI-Ready数据在生成式人工智能成功中的重要性,强调高质量、一致性和可访问性的数据对于AI项目的成功至关重要,并提供了实际案例和下一步行动建议。
生成式AI的扩展依赖于AI-Ready数据
摘要:
组织正在迅速采用生成式AI和大型语言模型(LLMs)来自动化和增强业务操作。尽管初始概念验证(PoCs)可能成功,但Gartner预测,**预计明年将有60%没有AI-Ready数据的AI项目被淘汰**[1]。原因很简单:生成模型只能以其数据的质量、一致性和可访问性来衡量。
根据Rimini Street的首席技术官Eric Helmer,“当他们开始他们的AI旅程时,许多人发现他们的数据是垃圾。他们不知道它在数百个不同系统中的位置,当他们找到它时,通常不知道它是否适合AI使用”[2]。
没有标准化的数据管道生成AI-Ready数据,生成式模型的扩展很快就会失败,暴露了企业AI战略中的一个关键弱点。
---
什么是AI-Ready数据?
AI-Ready数据是指结构化、高质量、一致且易于访问的数据,优化用于特定AI模型(如LLMs或检索辅助生成系统)的应用。
根据EY的全球AI领导者Beatriz Sanz Sáiz,“最终目标是拥有AI-Ready数据——质量好且专门针对AI模型以实现多方面的应用成果”[2]。
以下是核心属性:
1. 一致性 :在所有企业系统中统一。
2. 质量 :准确、干净、去重并定期更新。
3. 结构 :按特定AI应用逻辑组织。
4. 可访问性 :易于发现、分类和用于训练。
---
当前状况:传统数据管理无法满足需求**
传统数据管理系统通常依赖于分散的、孤立的数据存储。这使得传统的数据清洁化和结构化方法无效,导致数据不一致。
Helmer指出这一关键缺陷:“清理分布在错综复杂系统中的数据并使其对AI有用几乎是不可能的。一个系统的更改很少可靠地传播到其他系统,从而造成广泛的一致性问题”[2]。
Gartner的最新调查显示,**60%的企业认为他们缺乏或不确定进行AI的数据管理能力**[1]。
---
实际案例:电子商务推荐系统
电子商务平台经常面临客户数据在产品数据库、CRM系统和交易历史中不一致的问题。
通过使用图灵检索辅助生成(GraphRAG)来解决这一问题:
- 使用GraphRAG 以瞬间查询相关客户-产品互动。
- 集成事件驱动更新 ,确保数据的一致性和高质量。
- 持续重新训练推荐模型 ,利用最新的结构化数据。
---
下一步行动
要采用这些实践,开发者和软件架构师应:
1. 审计现有数据的质量和可访问性。
2. 标准化数据schema以确保一致的数据结构。
3. 评估并选择合适的工具来自动化 cataloging、清洁和传播AI-Ready数据(例如FalkorDB用于GraphRAG,Kafka用于实时一致性)。
Gartner的研究表明, 预计明年将有60%没有AI-Ready数据的AI项目被淘汰 [1]。Helmer对IT领导人的警告清晰表明:“只有数据成为AI-Ready,您的AI愿景才真正受限。”
---
下一步行动:
运行提供的GraphRAG整合示例,使用FalkorDB和LangChain评估数据管道的成熟度,并验证性能改进。
---
以上是文章的完整翻译版本。