iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 12
0

知識圖譜(Knowledge Graph/Vault,以下簡稱KG)本質上是語義網絡,是一種基於圖的數據結構,由節點(Point)和邊(Edge)組成。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關係網絡。知識圖譜提供了從“關係”的角度去分析問題的能力。

近年來,隨着人工智能的再次興起,知識圖譜又被廣泛的應用於聊天機器人和問答系統中,用於輔助深度理解人類的語言和支持推理,並提升人機問答的用户體驗等。典型的如IBM的Watson,蘋果的Siri,Google Allo,Amazon Echo,百度度祕,公子小白等。

當前世界範圍內已經有非常成熟且知名的高質量大規模開放知識圖譜,包括 DBpedia、Yago、Wikidata、BabelNet、ConceptNet以及Microsoft Concept Graph。其中DBpedia 是一個大規模的多語言百科知識圖譜,可視為是維基百科的結構化版本。Wikidata 是一個可以自由協作編輯的多語言百科知識庫,它由維基媒體基金會發起,期望將維基百科、維基文庫、維基導遊等項目中結構化知識進行抽取、存儲、關聯。BabelNet 是目前世界範圍內最大的多語言百科同義詞典,它本身可被視為一個由概念、實體、關係構成的語義網絡(Semantic Network)。

中文目前可用的大規模開放知識圖譜有 Zhishi.me、Zhishi.schema與XLore。其中Zhishi.me 是第一份構建中文鏈接數據的工作,與 DBpedia 類似,擁有約 1000 萬個實體與一億兩千萬個 RDF 三元組。Zhishi.schema 是一個大規模的中文模式(Schema)知識庫,其本質是一個語義網絡,其中包含三種概念間的關係,即equal、related與subClassOf關係。Zhishi.schema抽取自社交站點的分類目錄(Category Taxonomy)及標籤雲(Tag Cloud),目前擁有約40萬的中文概念與150萬RDF三元組,正確率約為84%,並支持數據集的完全下載。

*知識圖譜的計算流程

https://ithelp.ithome.com.tw/upload/images/20181027/20112538P4QSmZ1G1X.png

知識獲取:對用户的非結構化數據提取正文。
知識融合 (knowledge fusion) :指的是將多個數據源抽取的知識進行融合。
知識融合的做法有:
 屬性相似度計算
 關鍵屬性對比(特別是數字,日期類的屬性,一般可以唯一確定)
 關係連結對比(連結的關係實體名稱等是否一致)
 摘要的文字相似性 一般來說,摘要的文字jaccard也是一個比較方式
 向量距離 如後文會說的RL,如果向量空間距離接近,也可能是同一個實體
知識計算:主要是根據圖譜提供的信息得到更多隱含的知識,如通過本體或者規則推理技術可以獲取數據中存在的隱含知識。
鏈接預測:可預測實體間隱含的關係

*知識儲存和查詢
spo
是最簡單也是最靈活的一種儲存方式,其把圖譜的基本結構看做的三元組,所有的linking都通過這種kkv的形式完成。
rdf
簡單一點說,就是把spo表示成了一種資源描述符的方式,並且能方便靈活的通過網頁儲存,目前的圖儲存和查詢,大部分都是採用了這種方式。
owl
可以看做rdf的升級,在本體外封裝了一層語法,但是因為其需要更強的描述,目前大部分還是用的rdf

*知識表示和推理
一階謂詞邏輯
公式化的表示了kg上的關係
https://ithelp.ithome.com.tw/upload/images/20181027/20112538lksnNoTbRQ.png

表示學習 (RL)
目標是能夠將KG中的entity和relation對映到一個低維的稠密embedding中,從而將知識推理轉換為該空間上的向量或矩陣的運算

*知識推理
 PathRanking方法(PRA):來源於CMU對NELL的優化,其採用了圖上的randomwalk方法,結合一階謂詞邏輯,通過置信度傳播的方式,得到rank靠前的路徑,作為新的推理規則

https://ithelp.ithome.com.tw/upload/images/20181027/20112538uQYEj0PK3p.png

 基於RL的空間向量運算:將所有的知識都被對映到了一個向量空間,所有的知識推理可以通過向量運算完成
 概率圖模型(PGM)

https://ithelp.ithome.com.tw/upload/images/20181027/20112538zZs7JaKUjz.png

參考來源:
一文讀懂知識圖譜的商業應用進程及技術背景
https://hk.saowen.com/a/969a5532d1f637351fbd4171d6b7cc1f6975022232d6a47292ffa78ed6d6a2d5
【知識圖譜】介紹
https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/632195/


上一篇
XGboost
下一篇
LightGBM
系列文
自然語言技術與AI/ML初探30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
WenTingTseng
iT邦新手 4 級 ‧ 2020-03-07 20:34:44

請問您在文中有說spo是三元組形式是指 entity relation entity 這種格式呈現的嗎
謝謝~

我要留言

立即登入留言