Pandas - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 6

0

自我挑戰組

自然語言技術與AI/ML初探系列第 6 篇

Pandas

2019鐵人賽

團隊InfoSec Horadrim

2018-10-21 15:12:41

5013 瀏覽

分享至

練習用pandas dataframe功能讀取csv檔並作簡單統計指標運算

第一步：自備一個csv檔
第二步：確定已經安裝numpy, matplotlib
第三步：再有練習資料夾的command line路徑下，開啟python jupyter notebook
第四步：匯入numpy, matplotlib, pandas，並且分別命名為np, plt, pd物件名稱
第五步：用ls瀏覽一下資料夾

第六步：用panda物件讀取cvs檔案，方法是read_cvs
df=pd.read_csv("data1.csv")

接下來，便可用df物件，印出想要看到的資料範圍

例如df.head(0)是印出欄位
df.head()會印出欄位以及前五筆內容
df.head(2)會印出欄位以及前兩筆內容

範例資料是一個社群媒體文章集，欄位包含ID, 標題Poster, 內文PostContent, 經度Lst, 緯度(Lng), 情緒值(Weight, 1非常不滿意~5 非常滿意), 日期(PostCreateTime)

讀取特定欄位用df[“欄位名稱”]或是df.欄位名稱
例如我要印出weight這個欄位的內容
就用df[“Weights”]印出欄位內的所有值

如果我們想計算Weight的平均數與標準差，則先將df.Weight.values指定給一個cg變數，再用cg變數計算平均數與標準差
cg=df.Weight.values
cg.mean() #印出平均值
cg.std() #印出標準差

用df.Weight.hist()則可以印出Weight欄位內所有值的直方分佈圖

df.describe()則將基本的敘述統計指標一次整理成一個表列出來，很方便 :）

參考資料
成為python數據分析達人的第一課(自學課程)
http://moocs.nccu.edu.tw/course/123/intro
Kevinya's blog
https://dotblogs.com.tw/kevinya/2018/06/04/124135

Sentiment analysis

系列文

自然語言技術與AI/ML初探共 30 篇

目錄

RSS系列文訂閱系列文

29 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

117 組

團體組數

5 組

累計文章數

179 篇

最後報名日

9/15

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

ChatGPT Business & Codex 如何從零開始?

IT邦幫忙