資料工程師第 21/28 課: Information Retrieval / Software Agent / Crawler

DAY 22

成為資料工程師最初的 28 堂課系列第 22 篇

鐵人賽

食夢黑貘

2014-10-22 23:06:30

3382 瀏覽

分享至

[修讀原因]

資料工程師最重要的角色是把真正的 Data Science 的事情給實現, 當然大家想到的是資料的處理與呈現, 但之前一定是要把資料抓當才行, 因此抓到資料的技術是資料工程師必備的能力, 就像是巧婦難為無米之炊.

而這邊比較接近的科目在圖書館學中叫資訊獲取 (Information Retrieval), 在資訊科系中是比較偏代理者程式 (Software Agent), 而在業界實務上就是 Crawler / Spider (爬蟲), 只是在 IR (Information Retrieval) 中比較聚焦的事在於如何評斷資訊的價值與正確性, 而 Agent 比較強調的是系統架構與模型, 而 Crawler 會注重如何開發與實務.

這三個角度也都是必要的, 就像是現在的課程也是三個 Track, 抓資料不只是要知道資料要抓甚麼, 怎麼抓, 也要知道怎樣抓更有效率, 成本更低, 最合乎使用, 然後去實作, 去應用, 這才是一個好的 Data Engineer 都要能做到.

[基本資訊]

課程題目: Information Retrieval / Software Agent / Crawler
大學學程: 資訊類大四專題或研究所, 圖書館研究所
困難度: ＊＊
必要度: ＊＊＊
所須時間: ＊＊
建議書籍: Introduction to Information Retrieval

[基本介紹]

就像是很多研究, 資訊獲取也是從量化與質化來去看分析模型:

量化模型常見的有:

Set-theoretic models
Algebraic models
Probabilistic models
Feature-based retrieval models

質化模型常見的有:

Models without term-interdependencies
Models with immanent term interdependencies
Models with transcendent term interdependencies

考量點主要有前三點及其他衡量因素:

準確度 (Precision)
回應度 (Recall)
Fall-Out
F-Measure
平均準確度
R-Precision
Mean Average Precison
Discounted cumulative gain

代理軟體的考量有三點:

自動化
學習
合作

所以最後導出的智慧代理系統有這我階段:

simple reflex agents
model-based reflex agents
goal-based agents
utility-based agents
learning agents

[修習方式]

電子書:

關鍵字:

資料工程師第 20/28 課: Mathmatical Model / Pattern Recognition

資料工程師第 22/28 課: 程式語言 R 與其他

系列文

成為資料工程師最初的 28 堂課共 30 篇

RSS系列文訂閱系列文

50 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

成為資料工程師最初的 28 堂課系列 第 22 篇