iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 4
0
AI & Data

大數據的世代需學會的幾件事系列 第 4

Day4-輕鬆駕馭數據part2

上一篇文章中介紹完基礎的Numpy語法,主要提供多維的矩陣運算,而今天要來介紹的Pandas,基於Numpy多維矩陣運算之外,更是提供DataFrame的方法,DataFrame可以將原本多維的陣列附上行、列標籤,當在整理數據資料時,增加程式撰寫靈活性,並且在資料分組、統計...等,可以清楚呈現。

  • 將numpy和pandas匯入,並從新命名
import numpy as np
import pandas as pd
  • 產生series資料,並取出它的值
data = pd.Series([0.25, 0.33, 0.85, 1.0])
data.values

array([0.25, 0.33, 0.85, 1. ])


  • 取第一行的資料,資料標籤從0開始計算。
data[1]

  • 產生0~10範圍整數的3*4陣列,並且定義行的標籤名稱
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

A B C D
0 6 9 2 6
1 7 4 3 7
2 7 2 5 4


  • 建立兩個序列資料,並輸出area與population出現的標籤值。
area = pd.Series({'Alaska': 120000, 'Texas': 8875742,
                  'California': 453788}, name='area')
population = pd.Series({'California': 42577, 'Texas': 26448443,
                        'New York': 757367836}, name='population')
area.index | population.index 

Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object'


  • 產生1~10亂數整數的3*3矩陣,其行標籤維'A','B','C'
B = pd.DataFrame(rng.randint(0, 10, (3, 3)),
                 columns=list('ACB'))
B

A C B
0 4 0 9
1 5 8 0
2 9 2 6



上一篇
Day3-輕鬆駕馭數據part1
下一篇
Day5-輕鬆駕馭數據part3
系列文
大數據的世代需學會的幾件事30

尚未有邦友留言

立即登入留言