iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 20
2
AI & Data

深入淺出搜尋引擎和自然語言處理系列 第 20

Day 20: 從文章中獲取有用的資訊!關於資訊抽取

  • 分享至 

  • xImage
  •  

The president of the United States is Donald Trump. (美國總統是川普。)

資訊抽取技術在看到這句話時,會提取:

president(United States, Donald Trump).

資訊抽取的主要目標是將文字轉換成有架構的資料,讓這些以類似資料庫的方式呈現。取得有架構的資料庫之後,能夠進一步的幫助許多應用進行決策。例如:

  1. 股市分析:從新聞和社群媒體中取得資料 → 轉成架構化的資料 → 決定是否要在現有的股價進行買賣。
  2. 醫療或生物研究:從近期的文章中取得關於疾病和治療方法的資料 → 轉成架構化的資料 → 決定要給病人什麼藥。
  3. 謠言偵測:從社群媒體中取得近期事件 → 決定偵測到謠言時如何應對。

資訊抽取有兩個步驟,首先將取得的資料進行命名實體辨識,接著進行「關係抽取」。用上述的例子,命名實體辨識時會取得「United States」和「Donald Trump」,而關係抽取會根據語句來找出「United States」和「Donald Trump」之間的關係,也就是「president」。

在關係抽取時,有時我們會有「關係資料庫」

https://ithelp.ithome.com.tw/upload/images/20190921/201186836ta2yqFqqz.png

像是president(United States, Donald Trumps)的關係應該是ORG AFFILIATION下的Employment吧(笑)。

在有關係資料庫的情況下,我們可以採用幾種方法來實作關係抽取:

  1. Rule-based,像是當我們看到「AAA國的總統是BBB」時,我們就記錄:總統(AAA國, BBB)。這麼做卻有個明顯的缺點,若句子改成「BBB是AAA國的總統」時,這個規則假如沒有提早寫進去,那這句話就沒辦法被抽取。
  2. Supervised,首先根據資料庫判斷兩個實體之間有沒有關係(二分法),接著從判斷未有關係的實體之間找出其關係。

其他還有Semi-Supervised以及Distant Supervision的方法。

那麼,若是沒有關係資料庫的話,或是目標是要發掘新關係,該怎麼辦呢?OpenIE。OpenIE使用了Unsupervised learning(非監督式學習),輸入少量的關係(規則或實體pair)來訓練出一個通用的關係抽取模型。


上一篇
Day 19: AI能辨識專有名詞?關於命名實體辨識
下一篇
Day 21: 讓電腦讀懂人類的提問!關於問答系統
系列文
深入淺出搜尋引擎和自然語言處理30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言