iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 3
0
AI & Data

大數據的世代需學會的幾件事系列 第 3

Day3-輕鬆駕馭數據part1

Day1-數據選擇中,有簡單介紹Numpy可以支援多維陣列處理,而在處理series資料時,常會合Pandas Dataframes相互使用。
數據集的來源相當廣泛包含各種格式,像是文字、圖像、音檔...等,儘管類型極為不同,但都可以轉換成數字集合。例如,圖像可以透過圖片明暗度(二值化)來產生二維0、1數字組合的陣列,音檔亦能透過音量的強弱來產生,因此,講解完數據的基本操作後,將會介紹如何做到特徵工程。

  • 將numpy函示庫匯入並從新命名為np
import numpy as np
  • 基本建立資料矩陣
level = ['a','b','c','d']
number = [1, 2, 3, 4]
score = [55.0, 88.5, 65.0, 10.5]
  • 將上面3個一維陣列資料合併
data['number'] = number
data['level'] = level
data['score'] = score
print(data)

[('a', 1, 55. ) ('b', 2, 88.5) ('c', 3, 65. ) ('d', 4, 10.5)]


  • 透過矩陣的索引名稱來求資料
#取得索引值為level的所有資料
data['level']
#取得第一列的資料
data[0]
#取得level的最後一筆資料
data[-1]['level']

array(['a', 'b', 'c', 'd'], dtype='<U10')

('a', 1, 55.)

'd'


  • 利用dtype的方式來定義數據的類型
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

python提供的數據類型可以參考:https://docs.scipy.org/doc/numpy-1.15.0/user/basics.types.html
Day1-程式語言、模組百百種 要如何選擇?(含30天文章架構)


上一篇
Day2-Python實作網路爬蟲
下一篇
Day4-輕鬆駕馭數據part2
系列文
大數據的世代需學會的幾件事30

尚未有邦友留言

立即登入留言