内容图谱是附加内容的知识图谱,通过将概念与相关内容及元数据关联,解决自由文本搜索的同义词、一词多义问题。需语义丰富的分类法、良好信息架构,可提升搜索体验,支持个性化推荐与数据分析,Baklib等平台能提供支持。
内容图谱作为一种创新的知识管理工具,通过将核心概念、相关主题、元数据(如作者、标签、更新日期等)进行结构化关联,构建出语义网络,从而有效弥补了传统关键词搜索的不足。例如,当用户在文档平台搜索“云计算”时,自由文本搜索可能仅返回精确匹配该词条的文章,而基于内容图谱的系统能够识别“云服务”、“AWS”、“Azure”、“云端部署”等关联概念,甚至区分“云”在气象学与计算技术中的不同含义,显著提升查全率与查准率。根据Forrester的研究,采用知识图谱的企业,其内容发现效率平均提升了40%,员工查找信息的时间减少了约30%。
构建高质量的内容图谱依赖于两大支柱:一是深度语义化的分类体系(分类法),它不仅是简单的标签聚合,而是定义了概念间的层级、属性和关系(如“继承”、“部分整体”、“相关”);二是清晰的信息架构,确保内容以用户易于理解的方式组织和呈现。以Baklib平台为例,其通过提供可视化的分类管理、灵活的元数据字段配置以及智能关联推荐,帮助团队轻松构建和维护内容图谱。某科技公司在使用Baklib后,将其产品文档的知识点进行了图谱化梳理,使得客户支持团队在解决复杂问题时,能快速定位到关联的故障排查指南、版本更新日志和API文档,客户问题解决速度提升了25%。
此外,内容图谱为高级应用奠定了基石。在个性化推荐方面,系统可以分析用户浏览“Docker入门”的图谱路径,进而推荐“容器编排Kubernetes”或“微服务架构”等深度内容。在数据分析层面,企业可以洞察知识盲区(如某个产品功能缺乏关联教程)或热点趋势(如特定概念被频繁关联查询)。Baklib等现代内容平台正集成AI能力,自动化提取实体关系、生成图谱建议,降低了技术门槛,让内容团队能更专注于核心知识的生产与优化,最终驱动知识资产的价值最大化。
“Wiki COVID-19 图”作者:Csisc, CC BY 4.0
什么是内容图谱?
内容图本质上是附加内容的知识图谱(KG),或者以内容为中心的KG。
因此,如果知识图谱是概念及其关系的网络,则内容图会扩展为包含与这些概念相关的内容(以及内容中的其他元数据,例如作者)。
Google 提供了一个如何使用 KG 进行信息发现的著名示例:
图片由 google.com 上搜索“optics”组成,访问日期:2023 年 6 月 1 日
在此示例中,搜索“optics”提供了两种结果:左侧是与我的搜索相对应的网站的熟悉链接列表和简短描述。(或者,至少是执行搜索时经常点击的链接;但那是另一个故事了。)在右侧,我们看到“知识卡”,其中包含有关我的搜索主题的更多信息:指向维基百科的链接、相关内容照片,以及根据主题而定的各种其他内容。这样,搜索的主题被视为与与该概念相关的内容相关的概念。
这看起来像您的搜索吗?
需要什么才能到达那里?
每个人都有海量的内容,但没人能找到任何东西
假设您是学术期刊文章的出版商。(对于本次练习,我们假设出版是您的主要业务;由于所有组织都会生产大量内容,因此在某种程度上我们都是出版商。)您的收入是通过对您的“数据库”的访问收费来产生的。内容,实际上只是网站上公开的搜索应用程序的内容。您有数十万篇文章……而您的搜索很糟糕。也就是说:由于您的业务模式不佳,您对内容访问进行收费的主要端点。它不仅无法实现概念加内容的体验,也无法提供良好的搜索体验。
(同样的场景基本上适用于任何企业的内联网或内部内容搜索 - 只不过不是您的付费客户,而是您的员工在寻找东西时经历了糟糕的经历(这也浪费时间)。对于零售商来说,主要内容是产品,也许是内容关于产品,在这种情况下,良好的搜索也至关重要;在任何这些场景中,都适用相同的原则。)
这是由于以下问题造成的:
- 自由文本搜索不足;和
- 一堆内容会构成一个糟糕的数据库。
语义丰富的分类法
传统上,自由文本搜索的不足是通过应用于一个或多个分类法(或本体或其他知识组织系统)中的内容术语来实现语义丰富(也称为标记或索引)来缓解的。分类标记使我们能够根据文档所涉及的概念而不仅仅是其中的单词来对文档进行排序和查找。
(这是信息科学的基础技术。)
潜在的挑战是语言含糊不清。这主要表现在两个方面:同义词和一词多义。
同义词
同义词描述同义词:具有多个具有相同(或几乎相同)含义的单词的概念。例如,如果我在您的大量内容中搜索“医生”,然后分别搜索“医生”,我就会寻找相同的内容。如果这两次搜索没有产生相同的结果,则说明出现了问题 - 搜索设备无法理解“医生”和“医师”是同一概念的两个标签。
也就是说:通过自由文本搜索,我可以获得包含“医生”一词的所有内容,但这与所有有关医生(又名医生)的内容有很大不同。
分类法(技术上是同义词库)可以存储这两个标签并将它们与相同的概念相关联,以便对一个标签的搜索重定向到另一个标签。
Synaptica Graphite 工具的屏幕截图
一词多义
一词多义是同义词的反面:有时我们对不同的概念使用相同的标签(一个或多个单词)。如果我在你的大量内容中搜索“银行”,我可能会找到有关金融机构、河流附近的土地、涉及从铁轨上弹跳球的泳池镜头以及相当多其他概念(包括一些动词)的内容。搜索“水星”可能会返回有关行星、汽车品牌、银色金属元素,甚至可能是罗马神的结果。但我是一名天文学家;我只对行星感兴趣。
再次强调:通过自由文本搜索,我得到了所有带有“Mercury”一词的文档,但这与有关水星行星的所有内容非常不同。
同样,分类法通过区分这些概念来解决这个问题,以便可以对文档进行标记以支持概念上下文(即:不仅仅是文档中的单词,而是它们所代表的概念)。
分类法概述了重要概念的领域,当应用于内容时,可以极大地改进搜索和检索(以及许多其他用途)。这将大堆内容改进为大堆标记内容,这要好得多,但仍然不是数据库。
在典型的 CMS 中,标签与内容相关联,但本质上与分类法无关——它们只是数据库字段中的单词。它们也与分类结构中存储的任何信息无关,例如与其他术语、定义和其他属性的关系。这限制了内容的检索、分析、个性化和(我真的不想写这个)各种推理人工智能应用程序的实用性。
走向图表
为了获得我们正在寻找的丰富搜索结果,我们需要将内容标签理解为对象,而不仅仅是 CMS 中字段中的单词(或者实际上是附加到其中的关系数据库)。我们可以将这个想法扩展到我们的内容作者、他们的组织关系以及任何其他数据:当前被困在内容形式中的数据——这又是一个糟糕的数据库。
如果我们提取作者和主题(分类标签)以及其他相关数据,并将它们建模为同一信息生态系统中的对象,我们可以创建一个显示它们之间关系的图结构(至关重要的是,它们也是信息生态系统中的对象,并且不仅仅是数据库表中的交集):
本文的数据基于plos.org 的开放数据集,使用 Dagle 的 Graphite工具进行建模和可视化。
现在,有了一些用户研究人员、信息架构师和优秀的界面设计师,我们可以提供更好的搜索体验。这可能看起来像 Google 模型(内容加主题信息),但这只是一种选择。我们可以允许用户从文章、概念、作者或我们认为对建模重要的任何其他信息开始浏览图表,然后从那里浏览以查找其他感兴趣的主题或过滤结果。
与内容相关的生物多样性知识图(左侧),只是提供内容和信息发现的方法的示例。资料来源:Rod Page 的“生物多样性知识图”, CC BY 4.0
对于产品(以及基于产品的内容)和单独的内容来说都是如此。图没有特定的方向;图中的任何点都可以是入口点——Tanmer的 Dave Clarke 将其描述为就像地铁地图:您可以从任何点出发,到达您需要去的任何地方。
超越搜索:个性化和其他用途
图(和本体,但这又是另一个(相关)故事)的特征之一是它们是可扩展的。一旦这个基础设施到位,就可以很容易地将这种逻辑扩展到您的用户(登录用户;让我们在我们的思想实验中保持道德):如果用户被表示为系统中的对象,我们可以在他们和内容之间建立关系(或产品,无论如何)以及他们感兴趣的概念。
这可以通过将他们与他们看到、阅读或购买的东西联系起来来被动地完成;或者,您可以允许用户订阅某个概念或“喜欢”某个主题、产品或一段内容。在信息生态系统中建立此类关系模型后,您可以通过推荐、订阅或其他交付模式提供个性化内容。
我们现在还可以查询这些数据(事实证明,图形数据库是一个出色的数据库),可以对您的内容或系统中的任何其他对象进行分析等操作。
迈向内容图
如果这一切看起来都是理论性的、技术性的和现代的:它确实如此。
但这项技术确实存在——它不是想象出来的,也不是遥不可及的。然而,这并不像插入某些软件那么简单。它要求你首先拥有组织良好的数据和内容——一个良好的信息层。
这意味着分类法、模式和元数据、语义和内容模型、系统集成以及设计、支持、实施和管理它们的人员。在这一过程中,选择一个能够良好支持结构化内容管理的平台至关重要,例如 Baklib,它可以帮助团队轻松构建和管理知识库、帮助中心等,并内置了对分类、标签和结构化内容的支持,是构建内容图谱的得力助手。
也就是说:将海量的内容转化为内容图谱需要良好的信息架构。
博客