iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 4
0
AI & Data

AI&Machine Learning系列 第 4

Data 大數據(彙整資料)

上一篇跟各位介紹了所謂的擷取資料的部分,這裡將會跟各位介紹,擷取下來的檔案該如何做一個整理,一個好的資料呈現必須都以一個表格來給人家觀看,但是表格部分又有分類,我們該怎麼處理這些分類上的問題呢?

首先我們也一樣會使用到模組來解決這麼多的問題,以python 模組來說,如果要處理表格將會使用到 pandas來做為依據,有時候會利用 numpy來做為輔助,但是比較少的情況會使用到,所以使用pandas的機率非常高,那pandas是什麼呢,為何可以整理表格以及他到底什麼原因一定要用到它,其實 pandas 整體來說非常多的功能可以使用,但是其中最常用的功能是 pandas.DataFrame 此功能裡有行列命名方式以及自動將所有資料配合到表格中,因為被整理成表格關西,所以我們最後還可以使用陣列的方式將資料做處理,讓資料變得更加完整。

import pandas as pd

pd.DataFrame(data,columns,....)

以上面程式碼來說,簡單的一句匯入程式以及將程式表格化僅僅兩行即可解決,根據https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html 網站中所提供的各種方法皆可以套上pandas上來做選用,本人是經常會想用方法時就會去查詢方式,若是不介意此方法的人也可以嘗試看看,如果時間一久通常也很好上手。

在未來中許多客戶或者是大公司都會Care數據的一些小問題,其中一個問題最大的是會眼花撩亂,所以後來許多人都喜歡看圖表,當你有了表格的資料時,你可以將表格轉換成圖表的方式,此時python pandas也可以做到這個部分
#產生1000個亂數子
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
#將這些亂數子畫圖
data.plot()
#將圖呈現
plt.show()

以上為 https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/3-8-pd-plot/ 參考pandas所呈現出來的畫圖方式可以跟matplotlib非常接近,雖然有些豐富的功能或許matplotlib來的好,但是以處理程序來說如果可以使用一個模組達成如此豐富的事情,其實相對程式記憶體量也不會太重。

那這邊介紹就到此結束,下一篇將會介紹如何將資料儲存至電腦中保存起來,以上為不專業PO文,謝謝大家,我們下篇見~~~~~

上一篇
Data 大數據(攝取資料)
下一篇
Data 大數據(儲存資料)
系列文
AI&Machine Learning30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言