在談到大數據之前,我們要先了解數據與資料…
裝置收到的訊號經過轉換就會變成數據,數據是分散的,不具有特別意義,資訊才有特別的意義。
資料儲存:
• 硬體 - 記憶體是First Storage,有的為長久儲存,有的關機或遮蓋後就沒有,所以主要資料一般都存在硬碟(Second Storage),Third Storage就是指隨身碟、CD
• 儲存模式 - 最常見的就是檔案,所以基本上作業系統都會提供這個模式,而在複雜的應用則使用資料庫處理
關聯型資料庫(Relational Database)
關聯就是指用表格來表示資料的關係,在不同欄位、行列中做處理,在多個表格之間也可以建立外部索引來表示關聯。主要使用SQL語言,做抓資料、新增、刪除、查詢、修改的動作,在建立表格時通常會透過正規化來減少重複的資料,提高關聯性與資料的一致性。而在設計時為了保證交易(Transaction)可靠正確,有四個基本特性需要遵守:
• 不可分割(Atomicity) - 一個工作裡可能有好幾個步驟,要全部的步驟執行成功,交易才算成功,若交易失敗就會回覆到原本的狀態
• 一致性(Consistency) - 整個資料在交易前後必須一致,若交易成功,所有資料都必須是交易後的狀態;交易失敗,則為交易前的狀態,全部不能有變更
• 獨立性(Isolation) - 多人使用時,彼此的交易必須不受干擾
• 持久性(Durability) - 交易成功後,所有的變更都必須保留下來,交易結果不能遺失
NoSQL 資料庫
運用在高流量、需要建立大量索引以及傳送串流媒體的情形,它一般只有較弱的一致性,不過有些系統為了保證ACID的完整性,增加了中間層(middleware),如:Google的Bigtable、滑鐵盧大學開發的HBase。大多用key-value(名稱和值)的形式儲存,每筆資料互相獨立,為分散式且擴充能力強;又或者以文件為單位儲存,用在非結構性的文件,如:一般HTML網頁;還有以圖像的方式儲存,這是運用圖形架構來儲存結點之間的關係。
資料類別:
• 關聯資料 - 表格tables
• 文字資料 - 最常用的形式
• 半結構化資料 - 如:XML,可能是儲存或傳輸用
• 圖形結構資料 - 彼此擁有聯繫的事物所繪製的圖,處理相對複雜
• 多媒體串流資料 - 所占流量、頻寬最大,一起處理也會相對複雜
參考資料
https://openhome.cc/Gossip/EJB3Gossip/TransactionABC.html
https://www.ithome.com.tw/news/92507
https://www.youtube.com/watch?v=LAU10efPcmk&list=PLdSWxzxDhd3GPyFpnX5LaREQbcdSgSDHz&index=3