這種方法需要使用壹些現有的結構化知識庫作為其底層知識庫,例如 Freebase 項目,它的大部分數據來自維基百科。
然而,目前大多數知識圖譜都是自下而上構建的。自下而上是指從壹些開放連接的數據(又稱 "信息")中提取實體,選擇置信度較高的實體添加到知識庫中,然後構建實體之間的鏈接。
知識圖譜的體系結構是:
知識圖譜的體系結構主要包括其自身的邏輯結構和體系結構。
知識圖譜在邏輯結構上可分為兩個層次,模式層和數據層,數據層主要由壹系列事實組成,知識將存儲在事實單元中。
如果事實以三元組的形式表達,如(實體1、關系、實體2)、(實體、屬性、屬性值),則可以選擇圖數據庫作為存儲介質,如開源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式層建立在數據層之上,主要通過本體庫來規範數據層中的壹系列事實表達。本體是結構化知識庫的概念模型,通過本體庫形成的知識庫不僅層次結構更強,而且冗余度更低。
大規模知識庫的構建和應用需要多種智能信息處理技術的支持。通過知識提取技術,可以從壹些公開的半結構化和非結構化數據中提取實體、關系、屬性等知識要素。通過知識融合,可以消除實體、關系、屬性等指稱項與事實對象之間的歧義,從而形成高質量的知識庫。
知識推理則是在現有知識庫的基礎上進壹步挖掘隱含知識,從而豐富和擴展知識庫。分布式知識表示形成的集成向量對於知識庫的構建、推理、融合和應用都具有重要意義。