[2018 iThome 鐵人賽] Day 6: 加密和雜湊有什麼不一樣？

2018 iT 邦幫忙鐵人賽

DAY 6

自我挑戰組

M157q 的待業程式生活日誌系列第 6 篇

2018鐵人賽雜湊加密資訊安全資安

M157q

2017-12-25 23:57:23

30353 瀏覽

分享至

本文利用工人智慧技術同步發表於我的部落格

前言

其實雜湊（Hash）的部份，本來是打算放在 [2018 iThome 鐵人賽] Day 4: 如何區分加密、壓縮、編碼這篇一起講。但在撰寫的過程中發覺雜湊跟其他三者相比起來的差異性較大，一起講其實蠻突兀的，不太好比較。而且我自己目前看到的狀況是，雜湊比較容易跟加密搞混，所以才獨立出這篇來講一下雜湊與加密的關係。

你可能或多或少都有看過或聽過「MD5 加密」、「MD5 解密」、「SHA-1 加密」、「SHA-1 解密」、「雜湊加密演算法」。但 MD5 和 SHA-1 實際上並不是加密演算法，而是雜湊演算法。究竟加密跟雜湊到底有什麼不一樣，又該如何區分，這篇會簡單講解一下。

因為加密的部份已經在 [2018 iThome 鐵人賽] Day 4: 如何區分加密、壓縮、編碼這篇提過了，所以就不重述，還不清楚的人歡迎點擊上述文章連結前去察看。以下會先講雜湊的特性，再講雜湊跟加密的區別。

雜湊（Hash）

其實雜湊在一些壓縮演算法或者排序演算法也都有用到，
但這邊只就資訊安全相關的部份進行討論。

特性
- 無論原文的內容長短，透過雜湊演算法運算完的輸出都會是固定的長度，即輸出的長度不受原文長度影響。
- 雜湊演算法的輸出又被稱做「雜湊值」（hash value）。
- 不同雜湊演算法的輸出長度不同。
- 兩個原文的內容即便只差一個字，雜湊演算法產生的兩個輸出內容卻會差非常多。
- 相同的內容作為相同雜湊演算法的輸入，得到的輸出必定一樣。
- 不同的內容作為相同雜湊演算法的輸入，得到的相同輸出的機率極低。
- 無法將雜湊演算法的輸出解回原本的輸入，雜湊是單向的。
  - 但因為相同輸入會得到相同輸出，所以最常見的破解方法就是透過 brute-force 的方式，用程式把各種可能的輸入都餵給雜湊演算法，得到輸出後，把輸入跟輸出以及所使用的雜湊演算法記起來，成為一張對應表（被稱做 rainbow table，彩虹表）。
  - 然後拿雜湊值去其使用之雜湊演算法的 rainbow table 找尋輸入值，因為 rainbow table 是可以一直累積的，所以理論上來說，只要 rainbow table 夠大的話，就能夠找到原始的輸入值。
  - 所以資安實務上會再為原始資料加入 salt 之後，才會丟給雜湊演算法運算，獲得加了 salt 以後的雜湊值。
    - salt 基本上就是額外加入的字串，可以用固定的規則改變原本的輸入值。
    - 這樣的好處是，就算被破解了，破解的人拿到的字串仍然不會是密碼，拿去登入是不會成功的。
    - 但在比對使用者輸入的密碼時，一樣可以加了 salt 之後再進行雜湊去比對，仍然可以驗證密碼是否正確，而安全性會增加。
用途
- 檔案校驗碼（Checksum）
  - 用來快速判斷檔案是否和原本相同。
  - 有在論壇下載過檔案的人應該都很常見到一長串 MD5 或 SHA-1 驗證碼，就是用來讓你快速檢查你下載的檔案裡頭的內容，是不是跟上傳者上傳的檔案一樣。
  - 不一樣的話可能就是你載錯檔案、檔案有毀損或檔案被人加料了。
- 不需要被還原的資料
  - 例如：避免明文儲存使用者密碼
    - 避免直接儲存使用者的明文密碼，除了避免資料庫外洩時，攻擊者無需進一步運算就可以直接得到明文密碼外，一方面也是尊重使用者，因為正常情況下只有使用者知道自己的密碼。
    - 要簡單判斷網站有沒有明文儲存你的密碼最簡單的兩個方法：
      - 寄信給你的時候有沒有直接把密碼寫在內文。
      - 忘記密碼的時候不是要求你或幫你重新設定密碼，而是直接告訴你你的密碼。
    - 但因為相同原文透過相同的雜湊演算法會得到相同的輸出，所以可以在不明文儲存使用者密碼的情況下，確認使用者輸入的密碼是否正確。
常見演算法
- SHA 系列：
  - SHA-0
  - SHA-1
    - SHA-1 已經被證明不夠安全。（在可接受的時間範圍內，可以找到內容不相同輸入卻得到相同輸出。）
  - SHA-2
    - SHA-256
    - SHA-512
  - SHA-3
    - SHA3-256
    - SHA3-512
- MD5
  - MD5 也已經被證明不夠安全。（在可接受的時間範圍內，可以找到內容不相同輸入卻得到相同輸出。）
- BLAKE2
結論
- 就是一串拿來做檢查的字串，但根據使用需求可以有不同的用途。

所以，為什麼雜湊不是加密？

我個人認為，雜湊和加密很容易被人搞混的原因，主要是因為，雜湊和加密通常是一起使用的，常常被拿在一起講，所以久而久之就搞混了。

但其實可以透過以下幾點來區分：

加密需要密鑰，且可以透過解密得到原文。（加密可逆）
雜湊不需密鑰，無法逆向解出原始輸入。（雜湊不可逆）
- 雖然可以透過額外儲存的 rainbow table 來找尋原始輸入，但彩虹表是預先計算並儲存下來的，而不是雜湊演算法本身的設計。
舉例
- 今天如果我拿到一串密文，我是有辦法透過解密，得到原始的明文的，而且如果使用非對稱式加密的話，我甚至還可以驗證傳送方是不是本人（是否有被進行中間人攻擊）。
  - 雜湊演算法在這裡也會被使用，通常會被拿來檢驗傳送的訊息是否有被更改過。
  - 傳送方附上原始訊息經過某個雜湊演算法得出的雜湊值，接收方在解開這個訊息之後，會透過相同的雜湊演算法來驗證。
- 但如果是拿到一串雜湊值的話，理論上是無法逆向得到原始的明文的，根本無法拿來做資料的傳遞。