DataFrame 是一種矩形的資料表,裡面有許多有序的、有名稱的直欄 (column),每一欄都可以使用不同的值型態 (數字、字串、布林等等)。
DataFrame 有列索引與欄索引,可以想成是 Series 構成的字典,裡面的 Series 都共用相同的索引。
建構 DataFrame 的手段有很多種,最常見的作法是以等長的串列或 NumPy 陣列組成的字典來建立:
data = {"state": ["Ohio", "Ohio", "Ohio" "Nevada", "Nevada", "Nevada"],
"year": [2000, 2001, 2002, 2001, 2002, 2003],
"pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
與 Series 一樣,pandas 產生的 DataFrame 裡面的索引是自動指派的,且欄是根據 data 裡面的索引鍵順序來擺放 (取決於他們被插入字典的順序)
In [50]: frame
Out[50]:
state year pop
0 Ohio 2000 1.5
1 Ohio 2001 1.7
2 Ohio 2002 3.6
3 Nevada 2001 2.4
4 Nevada 2002 2.9
5 Nevada 2003 3.2
對於大型的 DataFrame,head
方法只會回傳前五列:
In [51]: frame.head()
Out[50]:
state year pop
0 Ohio 2000 1.5
1 Ohio 2001 1.7
2 Ohio 2002 3.6
3 Nevada 2001 2.4
4 Nevada 2002 2.9
相反的,tail
會回傳最後五列:
In [50]: frame.tail()
Out[50]:
state year pop
1 Ohio 2001 1.7
2 Ohio 2002 3.6
3 Nevada 2001 2.4
4 Nevada 2002 2.9
5 Nevada 2003 3.2
今日的分享就到這囉,我們明天見,掰掰!