iT邦幫忙

DAY 22
0

成為資料工程師最初的 28 堂課系列 第 22

資料工程師第 21/28 課: Information Retrieval / Software Agent / Crawler

[修讀原因]

資料工程師最重要的角色是把真正的 Data Science 的事情給實現, 當然大家想到的是資料的處理與呈現, 但之前一定是要把資料抓當才行, 因此抓到資料的技術是資料工程師必備的能力, 就像是巧婦難為無米之炊.

而這邊比較接近的科目在圖書館學中叫資訊獲取 (Information Retrieval), 在資訊科系中是比較偏代理者程式 (Software Agent), 而在業界實務上就是 Crawler / Spider (爬蟲), 只是在 IR (Information Retrieval) 中比較聚焦的事在於如何評斷資訊的價值與正確性, 而 Agent 比較強調的是系統架構與模型, 而 Crawler 會注重如何開發與實務.

這三個角度也都是必要的, 就像是現在的課程也是三個 Track, 抓資料不只是要知道資料要抓甚麼, 怎麼抓, 也要知道怎樣抓更有效率, 成本更低, 最合乎使用, 然後去實作, 去應用, 這才是一個好的 Data Engineer 都要能做到.

[基本資訊]

  • 課程題目: Information Retrieval / Software Agent / Crawler
  • 大學學程: 資訊類大四專題或研究所, 圖書館研究所
  • 困難度: **
  • 必要度: ***
  • 所須時間: **
  • 建議書籍: Introduction to Information Retrieval

[基本介紹]

就像是很多研究, 資訊獲取也是從量化與質化來去看分析模型:

量化模型常見的有:

  • Set-theoretic models
  • Algebraic models
  • Probabilistic models
  • Feature-based retrieval models

質化模型常見的有:

  • Models without term-interdependencies
  • Models with immanent term interdependencies
  • Models with transcendent term interdependencies

考量點主要有前三點及其他衡量因素:

  • 準確度 (Precision)
  • 回應度 (Recall)
  • Fall-Out
  • F-Measure
  • 平均準確度
  • R-Precision
  • Mean Average Precison
  • Discounted cumulative gain

代理軟體的考量有三點:

  • 自動化
  • 學習
  • 合作

所以最後導出的智慧代理系統有這我階段:

  • simple reflex agents
  • model-based reflex agents
  • goal-based agents
  • utility-based agents
  • learning agents

[修習方式]

電子書:

關鍵字:


上一篇
資料工程師第 20/28 課: Mathmatical Model / Pattern Recognition
下一篇
資料工程師第 22/28 課: 程式語言 R 與其他
系列文
成為資料工程師最初的 28 堂課30

尚未有邦友留言

立即登入留言