About

如何做好数据准备迎接AI采用

Author Tanmer Tanmer
Tanmer · 2025-07-21发布 · 6 次浏览

本文探讨了在实施生成式AI项目时,确保数据质量和数据治理的重要性。强调了使用高质量、准确和更新的数据对于生成式AI工具的有效性和可靠性至关重要。


评论:生成式AI工具的结果只能基于支持它们的数据质量。

随着越来越多的公共实体开始利用生成式人工智能,确保使用的数据是“AI- ready”的至关重要。在实施生成式AI(Gen AI)项目时,数据保护面临多种特定威胁。让我们深入探讨需要考虑的关键因素。
第一个要考虑的是数据质量。数据是有效且负责任地使用生成式AI工具的基石,因此必须使用清洁、经过验证和最新的数据以获得准确和相关的响应。许多生成式AI平台可能会无意中访问无关或过时的数据,因为数据管理系统管理不善,或者会收集大量“垃圾”数据,这些数据会影响生成式AI工具提供的见解和响应。如果使用了这些类型的数据,可能会导致输出错误或不准确——“输入垃圾,输出垃圾”的道理。
在一个大型语言模型可以基于互联网上的公开可用数据进行训练的时代,经过验证、历史可靠且有依据的数据集的价值呈指数级增长。对于政府机构来说,确保数据策略正确变得尤为重要。尤其是当他们启动AI项目时,数据质量是最大的担忧之一。政府机构需要获得见解、方向和信心,这些只能通过当前和具有行动力的数据来实现,因为输入的质量直接影响输出的质量。
生成式AI工具需要“AI- ready”的数据,并且有助于防止数据“Frankenstein”。如果使用不准确的数据作为输入,可能会导致 hallucinations(幻觉),即模型自信地返回看似正确的答案但实际上却是错误的。随着组织越来越多地引入生成式AI,这种幻觉问题变得越来越普遍。
创建“AI- ready”数据集的关键要素之一是关于数据清洁度和确保使用高质量、准确、更新和高质量的数据。如果一个组织有不良的数据 hygiene,则可能会遇到严重的问题。
数据需要在结构错误或重复的情况下保持高质量。由于结果只取决于输入的数据,因此政府机构希望了解其生成式AI输出涉及哪些数据集以建立数据来源记录(即数据溯源),这可以提供一个文档记录数据的起源和变化。这样用户就可以跟踪和验证数据来源导致答案的过程。清晰的记录显示所使用的数据集可以帮助确定在生成式AI输出中发生了什么幻觉。
组织在数据保护方面面临越来越多的威胁,例如数据 Poisoning 或注入提示,这会影响模型结果和结果。此外,还存在模型盗窃的风险,即坏人逆向工程一家企业的生成式AI模型,从而导致企业损失知识产权和数据所有权。
由于这些持续的威胁,政府中正在变得越来越 prominent 的首席数据官(CDO)角色。当CDO能够最好地理解被使用的数据的质量和类型时,生成式AI实验非常有效。公共机构需要付出努力并投资于确保数据准确且及时,并严格控制数据来源,以便正确的数据进入各自的数据显示链。
最后,建立一个适当的的数据治理系统对于实施生成式AI至关重要。构建数据治理系统的关键要素包括 robust 数据分类、分类、数据溯源以及数据质量保证和数据最小化实践。这些控制措施有助于确保数据完整性的一致性,明确责任归属,并在数据显示链中保护信息,同时遵守法律和法规等。
“AI- ready”数据将使组织能够充分利用并释放生成式AI的潜力。生成式AI数据准备是最大化AI技术效果的关键,也是确保结果准确、可靠且有效的必要条件——对于任何公共或私营实体来说都是至关重要的。

提交反馈

博客 博客

「数字体验」相关的知识、文章、行业报告和技术创新