課程筆記
在開始學習資料分析之前,我們先問自己"資料分析是甚麼",接著
上網搜尋"資料分析"。
這是一個開放式的問題,沒有一定的解答。
我認為資料分析是能夠再在眾多資訊當中,
找到問題或是趨勢,進而解決問題或進行發展。
面臨突如其來的問題,我們皆會感到驚慌失措,但這很正常,我們也會透過這三個步驟來解決遇到的問題。
1.吸收問題:找到問題的關鍵點
2.解決問題:搜尋資訊,獲取更多相關訊息
3.執行解法:即時性的驗證步驟二所得到的訊息是不是正確或是必要的。也能夠跟對方確認驗證雙方理解是否一致。
這三個步驟是不是在日常生活中我們都在用呢!
那什麼是資料分析呢?
他是從資料科學發展而來,將資料轉換成有價值的資訊。
用程式對資料進行載入、清理、變化、視覺化、模型...等運用。
到這裡,可能會好奇資料與資訊有沒有不同呢?
答案是 有
資料,英文是DATA,它屬於事實或是觀察,較為客觀;不容易看懂的東西。
颱風在附近,這是一個事實;
手機的銷售,這是一個觀察。
資訊,英文是IMFORMATION,它在一個準則(規範)中,有系統、規劃性的去整理有關的訊息,較為主觀,容易看得懂的東西。
這一個月的手機銷售量,資料裡有很多品牌,數量價格也不一樣,
可能依照品牌,排序最多人買的手機型號;
或是用銷售數量的高低作排名
關於資料的整替體流程
載入、清理、變化、視覺化、模型...等運用。
回到剛剛的三步驟
1.吸收問題之後的首要任務就是"思考該如何蒐集資料來佐證解答"
常見的資料來源為:
網頁(網路爬蟲)
檔案(載入)
資料庫(載入)
資料的清理或處理,常見稱為 DATA MUNGING 或 DATA WRANGLING。
先撇開兩個難懂的英文,來看一下R語言大師 Hadley 在 journal of statistical software期刊中發表的論文 Tidy Data(整潔資料)對於資料的清理或處理的定義:
"將先前載入的資料,轉換為符合整潔資料定義的型態,再進行後續的環節。"