Pandas可從CSV 、Excel 、資料庫,或從網頁中擷取表格資料,匯入Pandas後,再對資料進行各種處理。
讀取 | 存入 |
---|---|
read_csv | to_csv |
read_excel | to_excel |
read_sql | to_sql |
read_json | to_json |
read_html | to_html |
一、讀取資料
1.以csv為例
讀取整個檔案。
pd.read_csv('檔案名稱.csv')
取檔案裡的某幾個欄位。
pd.read_csv('檔案名稱.csv',usecols = ['欄位名稱','欄位名稱','欄位名稱'])
names參數指定行的名稱,以hearder=0參數跳過檔案裡放置行名稱的列。
pd.read_csv('檔案名稱.csv',header = 0,names = ['新欄位名稱1','新欄位名稱2','新欄位名稱3'])
若csv中索引並沒有欄位名稱,這些索引將會被轉換成Unnamed:0的欄位,可設定index_col=0,則為指定首個欄位做為DataFrame的索引。
pd.read_csv('檔案名稱.csv',index_col=0)
若不想輸出csv中的索引,則可將index參數設定為False。
pd.read_csv('檔案名稱.csv',index=False)
若資料太大量,可設定讀入的筆數。
pd.read_csv('檔案名稱.csv',nrows=1000) #只讀入1000筆
2.以excel為例
讀取整個檔案(未指定sheet,則只會讀取第一個sheet)。
pd.read_csv('檔案名稱.csv')
讀取excel檔案某個sheet,使用sheet_name讀入要存取的sheet名稱。
pd.read_excel('檔案名稱xls',sheet_name = 'sheet名稱')
使用names參數指定行的名稱,使用header=0來跳過第一行。
pd.read_excel('檔案名稱.xls',sheet_name = 'sheet名稱',header = 0, names = ['新欄位名稱1','新欄位名稱2','新欄位名稱3'])
使用usecols來選取工作簿裡面的欄位。
pd.read_excel('檔案名稱.xls',sheet_name = 'sheet名稱',usecols = ['欄位名稱','欄位名稱','欄位名稱']
二、存入資料
1.存入csv檔案
變數.to_csv('輸出的檔名.csv')
2.存入excel檔案
變數.to_excel('輸出的檔名.xlsx', sheet_name = 'sheet名稱')
三、檔案位址
1.相對路徑:
程式碼與要讀取的資料存放在同一個路徑(資料夾)中,才可以使用(pd.read_csv('檔案名稱.csv'))。
2.絕對路徑:
檔案的絕對位址(C:\Users\User\Documents)。
匯完檔案了嗎? 明天來學學怎麼將資料合併吧~