python處理csv檔問題

python csv 匯入csv pandas.dataframe

qeqe5566777 2021-09-17 16:11:23 ‧ 2200 瀏覽

分享至

小弟目前只學習了基本的python語法，其他套件都還沒完全學會(有開始看pandas用法了)
雖然組長有簡單指導我方向(用for迴圈取值)然後用pandas來做更動，但實在還是不太有頭緒
希望可以請教各位大大我該怎麼做比較好QQ

這是要處理的csv檔的長相，資料分為ID、年分、a~a7這幾項
每筆資料都是某機構在某年某季的資料，組長希望我重新將資料整理成為

改成某機構在a的資料以時間排序接著在做a2、a3、a4......
目前只想的到可以用isin去抓各個機構在每一季的所有資料然後再慢慢的把它改成組長要的規
格

但資料其實不是只有短短的這幾筆，如果真的這樣做完大概要花上好幾天...
現在會取出a1和年份了不知道這樣做正不正確

希望大家能指點迷津QQ....

看更多先前的討論...收起先前的討論...

Homura iT邦高手 1 級 ‧ 2021-09-17 16:32:43 檢舉

試著思考先把201906和a1的資料先取出來

froce iT邦大師 1 級 ‧ 2021-09-17 16:34:53 檢舉

pandas group_by

qeqe5566777 iT邦新手 5 級 ‧ 2021-09-17 16:38:17 檢舉

不好意思剛剛才發現我沒有把我目前做法上傳成功
目前是用isin來抓出資料然後一個一個慢慢放

qeqe5566777 iT邦新手 5 級 ‧ 2021-09-17 17:29:17 檢舉

@Homura 我試著做出來了 ! 我有更新在文章上，再麻煩您了QQ

Homura iT邦高手 1 級 ‧ 2021-09-17 17:57:03 檢舉

froce大有提示@@

qeqe5566777 iT邦新手 5 級 ‧ 2021-09-17 18:11:19 檢舉

感覺我沒什麼慧根...現在正在翻書看group_by用法

obarisk iT邦研究生 1 級 ‧ 2021-09-18 11:53:33 檢舉

先罵組長(誤)

基本上, 把時間放成欄, 不是一個很好的習慣 (因為他會一直往右長)
大部份時間序列的資料也是 long format 居多.

也許有部份的人習慣把一個紀錄(by id)放成一個列. 但是在 tensor 的時代, 這個有點太老套了. Orz

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

3 個回答

Greysuki

iT邦新手 5 級 ‧ 2021-09-17 18:33:25


data = {
    "id": ["1", "2", "3", "4"],
    "year": ["201903", "201903", "201904", "201905"],
    "a1": [123, 456, 789, 165165],
    "a2": ["abc", "cde", "ttt", "7414"],
}

import pandas as pd

df = pd.DataFrame(data)
t = df.pivot("id", columns="year", values=["a1", "a2"])

a1 = t.loc[:, "a1"]
a1.loc[:,"type"] = "a1"

a2 = t.loc[:, "a2"]
a2.loc[:,"type"] = "a2"

pd.concat([a1,a2])

估計a1, a2....,a7 可以用stack之類的拉出來，
但我懶得想了所以你直接寫個fun撈吧

額外參考
Reshaping and pivot tables

回應
分享
檢舉

登入發表回應

miku3920

iT邦新手 2 級 ‧ 2021-09-18 00:27:54

幫你寫好了，自己研究看看這些方法是做啥的吧
df.pivot df.reset_index df.drop df.fillna df.rename df.append df.keys pd.Series pd.concat

import pandas as pd

df_before = pd.DataFrame({
    'num': ['1', '2', '3', '4', '5', '6', '7', '', '1', '2', '3', '4', '5', '6', '7'],
    'year': ['201903', '201903', '201903', '201903', '201903', '201903', '201903', '', '201906', '201906', '201906', '201906', '201906', '201906', '201906'],
    'a1': [1.1, 2.1, 3.1, 4.1, 5.1, 6.1, 7.1, '', 1.1, 2.1, 3.1, 4.1, 5.1, 6.1, 7.1],
    'a2': [1.2, 2.2, 3.2, 4.2, 5.2, 6.2, 7.2, '', 1.2, 2.2, 3.2, 4.2, 5.2, 6.2, 7.2],
    'a3': [1.3, 2.3, 3.3, 4.3, 5.3, 6.3, 7.3, '', 1.3, 2.3, 3.3, 4.3, 5.3, 6.3, 7.3],
})

print("-------------- before --------------")
print(df_before)
print()

# 修改 row 和 column
df_pivot = df_before.pivot(index='num', columns='year')

# 做點整理
df_list = [df_pivot[key].reset_index(drop=True).drop([0]).fillna(key).rename(columns={'year': ''}).reset_index().append(pd.Series(dtype='float'), ignore_index=True).fillna('') for key in df_before.drop(['num', 'year'], axis=1).keys()]

# 組合
df_after = pd.concat(df_list).reset_index(drop=True).rename(columns={'index': ''})

# 儲存
df_after.to_csv('Result.csv', index=False)

print("-------------- after --------------")
print(df_after)
print()