2G txt數據分析前置處理懇求給條路學習

資料探勘資料分析 python

jaman 2018-03-28 11:50:15 ‧ 5975 瀏覽

分享至

1.爬文後先做數據清理但轉成csv會有好多個請問各位數據清理都怎麼做呢？
目前我看文章都用panda但如果分成好多個csv他會合成一個嗎？
還是可以直接用txt 或是有別的存放讀取方式？
panda nan or 雜訊整理完數據會幫我改文件的值嗎？
我要整理連續雜訊，NAN值
時間數值數值
0.001 0.102 nan
0.002 0.111 nan
0.003 0.111 355.99
大概像這樣的資料無中文

froce iT邦大師 1 級 ‧ 2018-03-28 12:05:56 檢舉

我只能這樣回你：看你程式怎麼寫。
你要弄成一個大檔也可以，要分開也可以，只是弄成大檔要注意記憶體會不會爆掉、要不要分段寫入、程式效能等問題。

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

2 個回答

王選仲(GoatWang)

iT邦新手 4 級 ‧ 2018-03-29 09:16:55

最佳解答

pandas可以用concat合併多個DataFrame(你如果用pd.read_csv()讀進去就是DataFrame的格式)，可以參考我寫的這篇文章Pandas(Python中的Excel)Day4-DataFrame的新增、迴圈與刪除
，裡面的「新增rows」部分有談到。
因為2G的檔案真的比較大，所以一次性的處理才放在pandas上面處理，不過必須注意memory不足的問題，pnadas好用歸好用，但是很吃記憶體的。
要處理那個樣子的nan值其實不一定要用到pandas，用一般檔案讀寫即可，還可透過readline的方式，一行一行處理。

file = open('file_name', 'r', encoding='utf8')
for line in file:
    items = line.split(' ')
    print('this is time', items[0])
    print('this is num1', items[1])
    print('this is num2', items[2])
    if items[1] == 'nan':
        print('num1 is nan')
...

如果懂一點linux的話，可以查詢一下Linux的語法，grap或pipe可以幫助你快速完成一些事情。
另外上面也有人提到用NoSQL完成，建議你把資料處理完之後，簡單一點的就是一行行塞進去，怕DB IO太多，就幾十行幾十行塞進去，可以參考我寫的這篇Python與MongoDB的互動，用本機端的Mongo資料傳輸會比較快。