講到資料科學就要從資料開始,資料會存在資料庫(Database)當中。資料庫可以當成是資料的檔案櫃,當需要的時候才將所需的資聊拉出來。一般來說,資料庫可以提供「新增 Create」、「查詢 Read」、「更新 Update」、「刪除 Delete」,簡稱 CRUD。
資料庫大致上可以分為兩種類型的,我們也會分成兩天去說明:
資料庫最重要的特色是可靠,在資料庫系統中,交易是一個動作的單位集。一個交易是指由一系列操作組成的一個完整的邏輯過程。交易必須要滿足 ACID 的特性:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。
關聯式資料庫,是由資料表(Table)、紀錄(Record)、欄位(Field)以及資料(Data)所構成的。資料表示資料存在資料庫的形式,一筆一筆橫向的資料的是記錄,直向表示一筆資料的不同屬性,稱為是欄位。
關聯式資料庫之所以稱為是關連,是因爲資料其具有相互關聯的特性。不同的資料表間,可以透過特定的欄位將資料串起來。也因為有這樣的特性,我們最講求一個原則將資料做最有效率的儲存:「盡量避免重複的資料存在不同的資料表中」。正規化(Normalization)就是為了完成這件事情的處理方法。
常見的關聯式資料庫有:MySQL、PostgreSQL、Microsoft SQL Server。
SQL(Structured Query Language)是用來對資料庫操作的一種語言。 基本上的功能就是 CRUD,像是 MySQL 有提供這些用法: SELECT、
INSERT、UPDATE、DELETE、JOIN。怎麼操作的話可以參考這邊。