iT邦幫忙

DAY 25
0

成為資料工程師最初的 28 堂課系列 第 25

資料工程師第 24/28 課: 語意網路/文字探勘/語意分析

[修讀原因]

雖然說, Data Engineer/Scientist 這邊說的資料大多是量化的數字, 但畢竟人的溝通大部份是靠語言與文字, 甚至很多原始指資料都是從文字開始, 只是透過量化的技巧去做分析的, 所以說要學會語意分析是很重要的.

當然要讓了解電腦人類的語言之前, 要我們先深入了解語言的本質, 這就包含:

  • 語言學
  • 詞彙
  • 語法分析
  • 自然語言
  • (自動)分類
  • 自動摘要

等等這些的 Know-How, 這些都不能只靠數學或電腦的高手就能做到, 還要對這些語言學有足夠的了解, 這邊就是所謂的

  • 文字探勘
  • 語意網路
  • 搜尋引擎
  • 非結構化資料庫

事實上要了解這些技術, 還不如先去了解幾個方法:

  • 斷字斷詞
  • 文章分段
  • 關鍵字擷取
  • 關鍵字分析
  • 專業字詞(典)

要能夠做好這些事不是只有數學, 還包含其專業領域, 才能夠做好這件事, 也更能證明身為一個 Data Engineer 不能只懂得自以為須要的專業而已, 而是一個須要多領域, 跨領域與混領域的學習.

[基本資訊]

[基本介紹]

文字探勘有幾個步驟:

  1. Information retrieval
  2. Natural language processing
  3. Named entity recognition
  4. Recognition of Pattern Identified Entities
  5. Coreference
  6. Relationship, fact, and event Extraction
  7. Sentiment analysis
  8. Quantitative text analysis

這些步驟若能夠完整, 文字探勘就差不多了.

但最近常看到的語意網路 Semantic Web 更是種須要建立更好的資料源的眾人智慧才能做好的, 須要挑戰的事有:

  • Vastness
  • Vagueness
  • Uncertainty
  • Inconsistency
  • Deceit

所以與其說語意網路是種技術, 更是一種標準, 目前常見的語意網路標準有:

  1. Unicode
  2. Uniform Resource Identifier
  3. XML
  4. RDF
  5. RDFS
  6. SPARQL
  7. Web Ontology Language (OWL)
  8. Rule Interchange Format (RIF)

其中可以透過下面一張圖知道個大概:

這條路單單要走深入是相當不簡單的, 完全不輸給之前說的科目/課程.

[修習方式]

開放課程:

電子書:

關鍵字:


上一篇
資料工程師第 23/28 課: 電腦與網路相關數學
下一篇
資料工程師第 25/28 課: OLAP, RPC and API
系列文
成為資料工程師最初的 28 堂課30

尚未有邦友留言

立即登入留言