當前位置:偏方大全网 - 藥品查詢 - 知識圖譜基礎(壹)--什麽是知識圖譜

知識圖譜基礎(壹)--什麽是知識圖譜

作者是已經離職的人工智能產品經理,主要專攻知識圖譜和自然語言處理方向,寫這些文章是為了總結目前已經構建的知識體系,也是在科普。如有不妥,敬請指正。

知識圖譜在中國屬於壹個比較新的概念,國內的論文比較少,應用方主要集中在BAT這類掌握海量數據的企業,這個概念是google在2012年提出的,當時的主要目的是將傳統的基於關鍵詞的搜索模式向基於語義的搜索升級。知識圖譜可用於更好地查詢復雜的關聯信息,從語義層面理解用戶意圖,並提高搜索質量。

我個人認為,知識圖譜最大的優勢在於它在描述數據方面非常強大,而各種機器學習算法在預測方面非常出色,但在描述方面卻非常薄弱,知識圖譜恰好填補了這部分空白。

知識圖譜的定義非常多,我在這裏提供壹部分自己的理解:

1.知識圖譜的主要目標是用來描述現實世界中存在的各種實體和概念,以及它們之間的緊密關系,我們用關系來描述兩個實體之間的關聯,比如姚明和火箭隊,它們之間的屬性關系,我們就用 比如姚明和火箭隊,它們之間的屬性關系,我們就用 "屬性-值對 "來表征它們的內在屬性,比如我們的人物,他有年齡、身高、體重等屬性。

2.可以人為構建和定義知識圖譜來描述各種概念之間的弱關系,例如 "忘記訂單號 "和 "檢索訂單號 "之間的關系

知識庫目前可以分為兩類 Curated KBs 和 Extracted KBs

Curated KBs:以 yago2 和 freebase 為代表,它們從維基百科和 WordNet 等知識庫中提取了大量實體和實體關系,可以理解為壹種結構化的維基百科。

提取的知識庫:主要基於開放信息提取(Open Information Extraction,OE)、永無止境語言學習(Never-Ending Language Learning,NELL),直接從數以億計的網頁中提取實體關系三元組。與 freebase 相比,這樣獲得的實體知識更加多樣化,而其實體關系和實體更多采用自然語言的形式,如 "姚明出生於上海 "可以表示為("姚明"、"也出生於"、"上海")。

a)"姚明出生於上海"

b)"姚明是壹名籃球運動員"

c)"姚明是現任中國籃球協會主席"

以上是壹段知識,大量的知識將成為壹個知識庫。我們可以從維基百科、百度百科和其他百科全書中獲取大量知識。但是,這些百科全書中的知識是由非結構化的自然語言形成的,適合人們閱讀,卻不適合計算機處理。

為了讓計算機更容易處理和理解,我們需要壹種更正式、更簡潔的方式來表示知識,這就是三元組。

"姚明出生於中國上海 "可以表示為(姚明、出生地、上海)[1]。在這裏,我們可以簡單地將元組理解為(實體實體、實體關系關系、實體實體)。如果我們將實體視為節點,將實體關系(包括屬性、類別等)視為邊,那麽包含大量三元組的知識庫就變成了壹個大型知識圖譜。

實體有時被稱為主題,例如 Justin Bieber,而實體關系可分為兩種類型,即屬性和關系,如下圖所示,屬性和關系的最大區別在於屬性所在的三元組對應兩個實體、通常是壹個主題和壹個字符串,如屬性 Type/Gender 對應的三元組是(Justin Bieber、Type、Person),而關系所在的三元組對應的兩個實體通常是兩個主題,如關系 PlaceOfBrith 對應的三元組是(Justin Bieber、PlaceOfBrith、London)。倫敦)。

(圖中藍色正方形代表主題,橙色橢圓包括屬性值,它們都屬於知識庫的實體;藍色直線代表關系,橙色直線代表屬性,它們統稱為知識庫的實體關系,可以用三元實體和實體關系來刻畫)

這裏只是簡單介紹了數據結構,知識表達這壹塊將在《知識圖譜 基礎(二)--知識圖譜的知識表達系統》中詳細講解。

讀者只需要記住,freebase 的基礎知識表達形式:(實體)-[關系]-(實體),(實體)-[關系]-(值)即可,參考圖 3,姚明和葉莉的關系。

通過知識圖譜,不僅可以將互聯網上的信息以更接近人類認知世界的形式表達出來,而且為海量信息的組織、管理和利用提供了更好的途徑。下圖是筆者對知識圖譜相關應用的整理,接下來的壹些文章筆者將對以下應用進行剖析。

從圖4來看,知識圖譜的應用主要集中在搜索和推薦領域,機器人(客服機器人、個人助理)是壹個問答系統,本質上也是搜索和推薦的延伸。這可能是因為知識圖譜這塊技術(特指 freebase)是為了解決搜索問題而誕生的。知識存儲這壹塊可能是企業搜索和啟信寶這些企業發現的,使用圖結構的數據得到了更好的清理和處理。

在語義搜索這塊,知識圖譜搜索不同於常規搜索,常規搜索是根據關鍵詞找到相應的網頁集合,然後通過頁面排名等算法給網頁集合內的網頁排序,然後顯示給用戶;基於知識圖譜的搜索是遍歷知識圖譜中已有的知識庫,然後把查詢到的知識返回給用戶,通常如果路徑正確,查詢出來的知識只有1條或幾條,這是相當準確的。

在問答系統中,系統也是先借助知識圖譜對用戶用自然語言提出的問題進行語義和句法分析,然後將其轉化為查詢語句的結構化形式,再在知識圖譜中查詢答案。

  • 上一篇:麗江有什麽可以帶的土特產嗎?
  • 下一篇:化妝品註冊備案管理辦法
  • copyright 2024偏方大全网