iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 6
0

練習用pandas dataframe功能讀取csv檔並作簡單統計指標運算

第一步:自備一個csv檔
第二步:確定已經安裝numpy, matplotlib
第三步:再有練習資料夾的command line路徑下,開啟python jupyter notebook
第四步:匯入numpy, matplotlib, pandas,並且分別命名為np, plt, pd物件名稱
第五步:用ls瀏覽一下資料夾

https://ithelp.ithome.com.tw/upload/images/20181021/201125385iX1ONBpDo.png

第六步:用panda物件讀取cvs檔案,方法是read_cvs
df=pd.read_csv("data1.csv")

接下來,便可用df物件,印出想要看到的資料範圍

例如df.head(0)是印出欄位
df.head()會印出欄位以及前五筆內容
df.head(2)會印出欄位以及前兩筆內容

https://ithelp.ithome.com.tw/upload/images/20181021/20112538F6P2bvcmJH.png

範例資料是一個社群媒體文章集,欄位包含ID, 標題Poster, 內文PostContent, 經度Lst, 緯度(Lng), 情緒值(Weight, 1非常不滿意~5 非常滿意), 日期(PostCreateTime)

https://ithelp.ithome.com.tw/upload/images/20181021/201125385iTmVLx2Rp.png

讀取特定欄位用df[“欄位名稱”]或是df.欄位名稱
例如我要印出weight這個欄位的內容
就用df[“Weights”]印出欄位內的所有值

https://ithelp.ithome.com.tw/upload/images/20181021/20112538Z6x5uB0kCO.png

如果我們想計算Weight的平均數與標準差,則先將df.Weight.values指定給一個cg變數,再用cg變數計算平均數與標準差
cg=df.Weight.values
cg.mean() #印出平均值
cg.std() #印出標準差

https://ithelp.ithome.com.tw/upload/images/20181021/201125382ogkPbhGZZ.png

用df.Weight.hist()則可以印出Weight欄位內所有值的直方分佈圖

https://ithelp.ithome.com.tw/upload/images/20181021/20112538gD85xevn1b.png

df.describe()則將基本的敘述統計指標一次整理成一個表列出來,很方便 :)

https://ithelp.ithome.com.tw/upload/images/20181021/20112538WRClrt565N.png

參考資料
成為python數據分析達人的第一課(自學課程)
http://moocs.nccu.edu.tw/course/123/intro
Kevinya's blog
https://dotblogs.com.tw/kevinya/2018/06/04/124135


上一篇
Sentiment analysis
下一篇
Jieba
系列文
自然語言技術與AI/ML初探30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言