iT邦幫忙

2023 iThome 鐵人賽

DAY 3
0

~今天要分享的是「檔案介紹與匯入匯出」~
在做資料分析時,我們常見的檔案類型有:

  • .csv:為純文字檔案,資料以逗號字元分隔。
  • .tsv:為純文字檔案,資料以tab字元分隔。
  • .txt:為純文字檔案,在大多數平台都通用為其特色之一。
  • .xlsx:為Microsoft excel專用檔案,可以支援文字與圖表內容,因此檔案較大。
  • .json:為結構化數據檔案,使用鍵對值來描述資料。
  • .html:為網頁描述檔案,每個標籤內可以定義文字、圖像等元素的結構和外觀。
  • .zip:為壓縮檔案,以刪除重複性內容來壓縮檔案大小。

要注意的是,副檔名很重要!
副檔名決定了檔案的類型,所以在儲存檔案時要特別留意一下。

以下提供兩個方式來教大家如何使用python做檔案的匯入。
方式一、使用pandas套件內建的read函式來匯入檔案:

import pandas as pd

#匯入csv檔
pd.read_csv(filepath)

#匯入tsv檔
pd.read_csv(filepath, sep='\t')

#匯入txt檔
pd.read_csv(filepath, sep=' ')

#匯入xlsx檔
pd.read_excel(filepath)

#匯入json檔
pd.read_json(filepath)

#匯入html檔
pd.read_html(filepath)

#匯入zip檔
pd.read_csv(filepath,compression='zip')

方式二、使用with open來匯入檔案:

#匯入csv檔、tsv檔、txt檔
with open(filepath, 'r') as f:
    data = f.read()
    
#匯入json檔
import json
with open(filepath, newline='') as f:
    data = json.load(f)
    
#匯入html檔
with open(filepath, 'r', encoding='utf-8') as f:
    data = f.read()
    
#匯入zip檔
from zipfile import ZipFile    
with ZipFile(zippath) as Zip:
    with Zip.open(filepath) as f:
        data = f.read()

要注意的是,此方法不適用於匯入xlsx檔,因為編碼上的問題,所以會出現錯誤訊息。

在資料的匯出方面,提供下面一種方式給大家參考。
方式、使用DataFrame內建的to函式來匯出檔案:

#匯出csv檔
DataFrame.to_csv(filepath)

#匯出tsv檔
DataFrame.to_csv(filepath, sep='\t')

#匯出txt檔
DataFrame.to_csv(filepath, sep=' ')

#匯出xlsx檔
DataFrame.to_excel(filepath)

#匯出json檔
DataFrame.to_json(filepath)

#匯出html檔
DataFrame.to_html(filepath)

#匯出zip檔
DataFrame.to_csv(filepath, compression="zip", index=None)

上一篇
鐵人賽第二天~不可不知的套件介紹
下一篇
鐵人賽第四天~資料清洗
系列文
打造數據科學之路:資料分析與機器學習的完整指南30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言