密碼要怎麼儲存才安全？該加多少鹽？-科普角度

2021-10-16 03:17 PM 0 2,307

前言：昨天看到新聞 - 全球最大 3D 列印模型交流網站 Thingiverse 資料庫備份外流，其中包含 22 萬 8 千筆會員資料，包含生日、IP、姓名、密碼、地址、帳號... 密碼為「未加鹽的 SHA1 雜湊」。這篇聊密碼雜湊跟鹽的文章在草稿區擱了很久，順應天意，花了點時間把它寫完。

跟小木頭聊到(謎之聲：在家裡閒聊有必要這麼硬？)：如果系統有密碼需要儲存，要怎麼設計才安全？存明碼不行，為什麼加密寫進資料庫也被說不安全？

我不是這個領域的專家，但身為老司機加減略懂，這篇嘗試著用淺白的問答形式，挑戰寫成高中生也能看懂的科普文。至於若有謬誤，也歡迎指教補充。(請鞭小力一點)

如何讓儲存的密碼更安全更不易被破解？
答案很簡單，沒事不要自己寫。
自己造輪子樂無窮，造輪成癮的我完全懂。但登入機制與密碼保存實在太重要了，事關身家性命安危，如果能整合 Microsoft、Google 等大廠開發的第三方登入服務或身分認證機制，就別自己搞(除非，閣下功力足以碾壓 Google 跟微軟工程師，請受小弟一拜)；即使要自己開發，引用業界慣用有經過市場考驗的程式庫，也好過全部自己搞。
這件事就像防彈衣，你該自己找材料做一件，還是去買專業廠商的成熟產品？不用說大家都知怎麼選。但很不幸，總有些特殊需求必須自己儲存密碼，所以我們還是要對密碼儲存有些認識。
密碼用明碼存入資料庫真的不行嗎？資料庫又不是阿貓阿狗都能連？
說「用明碼存密碼必死無疑」是誇張了點，嚴格說應是「發生災難的機率很高且代價慘重」，雖然存明碼十幾年相安無事也不是不可能，但想像一下出事的後果，你應該不會想賭。
資安有個重要心法是「不怕一萬只怕萬一，即使最壞情況發生，也要降低損失」，就像戴安全帽跟綁安全帶，很可能終其一生都沒派上用場，但只要發生一次，你都會謝天謝地幸好有遵守 SOP。(後面會常引用「萬一」這個概念)
資料庫可能被堅守自盜、被入侵、備份外流(像文章開頭的新聞)，用明碼儲存密碼讓惡意人士連程式碼都不用研究，不費吹灰之力拿到所有人的密碼，危險指數最高。
不用明碼，那加密後儲存總可以了吧？
不妥。如果只有資料被人偷走的確沒什麼搞頭。萬一對方也知道加密方法，加密密碼便跟明碼密碼沒有差異，駭客輕鬆取得所有人的密碼。
加密方法寫在程式裡，壞人怎麼知道？密碼學有個柯克霍夫原則，主張系統要設計成即便原始碼被敵人掌握，只要金鑰沒洩漏就應該要是安全的。進一步可以延伸成 - 永遠假設你寫的所有程式碼已被公開的，在這個前題下設法做到安全。
用雜湊(Hash)形式儲存密碼，為什麼比較安全？
雜湊函式有個重要特性，它能將任意長度內容轉換成一段固定長度的指紋，內容的微小差異會導致截然不同的指紋；相同內容產生的指紋永遠相同，而要用指紋反推其對映的內容幾乎是不可能的(除非透過暴力破解，這就是比特幣挖礦為什麼要動用成千上萬台機器 24 小時不斷計算的理由。延伸閱讀：比特幣挖礦在挖什麼？)。雜湊概念很重要，是當今電子交易、數位簽章、數位貨幣的重要基礎。
如以下例子，ABC、ABD、ABCD 三者的雜湊值截然不同，且推敲不出與原始內容的關聯。如此，即便駭客偷到 B5D4045C3F466FA91FE2CC6ABE79232A1A57CDF104F7A26E716E0A1E2789DF78，無法反推密碼是 ABC。但當使用者登入時輸入 ABC，系統用 ABC 重算雜湊得到 B5D4045C3F466FA91FE2CC6ABE79232A1A57CDF104F7A26E716E0A1E2789DF78，雖然不知密碼為何，一致也能確定密碼是對的。

雜湊演算法有好幾種，例如：MD5、SHA1、SHA256，MD5 跟 SHA1 長度較短破解難度較低，已擋不住這些年每幾年計算能力就加倍的電腦，故目前 MD5 及 SHA1 已被視為不安全，建議使用 SHA256 或「更高階的密碼專用雜湊演算法」。(像我，寫了這麼多年程式從沒用過 Scrypt、Bcrypt 或 ARGON2 雜湊，隔行如隔山，這是為什麼儲存密碼最好「閃開，讓專業的來」的好理由。)
所以，雜湊可以被破解？
雖然駭客無法直接由雜湊反推密碼，但如果知道系統用的是哪一種雜湊函式(例如 SHA256)，他可以用「猜」的，計算 A 的 SHA256、計算 B 的 SHA256 ... 計算 Z 的 SHA256，計算 AA 的 SHA256 ... 按這規則寫程式把各種字元組合試過一遍，試到 ABC 時算出 B5D4045...2789DF78，便知道密碼是 ABC。這種做法叫做暴力攻擊(Brute Force Attack)，每次把所有字元組合重算一次太浪費時間，故將字典單字、常用密碼，甚至所有字元排列組合的雜湊預先算好，想破解時直接查表就能輕鬆反推密碼。目前還有所謂彩虹表(Rainbow Table)攻擊工具，使用優化過的雜湊對映表，可以在 160 秒內破解 Windows 2003 的 14 位文數字密碼(例如：Fgpyyih804423)。
以上說的攻擊方法，要不是很耗時間，就是很耗空間，例如要破解 14 位長度密碼，使用的字元範圍愈大，要準備的資料表空間就愈大，這也是為什麼密碼愈長，混雜英數字跟符號愈複雜愈難破解的理由：
Character SetTable SizeABCDEFGHIJKLMNOPQRSTUVWXYZ0.6 GBABCDEFGHIJKLMNOPQRSTUVWXYZ01234567893 GBABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789!@#$%^&*()-_+=24 GBABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789!@#$%^&*()-_+=~`[]{}|:;"'<>,.?/64 GB
延伸閱讀：Rainbow Hash Cracking by CODING HORROR
聽說加鹽(Salt)可以讓雜湊更安全，是怎麼辦到的？
上面提到攻擊者只需事先算好所有字元組合的雜湊對映值，透過查表就能反查出密碼內容。而雜湊有個特性，在原本內容多加一個字元，產生結果便完全不同。於是就有人想出在密碼前後加上額外內容的做法，讓查表法當場失效，這種額外加入的字串稱為鹽。
例如：密碼 ABC 對應的 SHA256 是 B5D4045...2789DF78，若攻擊者預先算好所有 4 位字元組合的 SHA256，他可以很快由 B5D4045...2789DF78 反推密碼是 ABC；但如果我們在真正密碼前面加一個 X，XABC 對映的 SHA256 是 49EA032D3238425FE093466C325F3729EBB3F0C8FCEAD0B8D5DC49816493D49E，攻擊者查表反推以為密碼是 XABC。比對密碼時，系統用 "X" + "XABC" 產生 SHA256，結果不等於 49EA032D...6493D49E，登入失敗。除非攻擊者知道哪些部分是鹽，將之剔除才能求出真正的密碼。
此外，在未加鹽時，可由兩個帳號密碼雜湊相同可判定其密碼相同。若每個帳號均加入不同的鹽，即使密碼相同雜湊也不會相同，也無法尋找已知密碼的雜湊驗證推測，攻擊難度亦會上升。
那，加鹽要怎麼加才夠安全？
試想以下幾種加鹽方法：
- 所有密碼加上固定文字，例如：用「"AddS@lt" + 真正的密碼」計算雜湊
  引用前面提過的「萬一」思考法，萬一駭客偷到"AddS@lt"這串內容，他只需將查表得到結果移掉最前面的"AddS@lt"，就是真正的密碼。或套用這個鹽重算所有字元組合的雜湊對映表，便可輕鬆破解所有密碼。
- 密碼加上某些使用者資訊，例如：註冊日期/會員編號/使用者帳號 + 真正的密碼
  引用前面提過的「柯克霍夫原則」，假設攻擊者看得到你的原始碼又拿到使用者資料，套用鎖定對象的專屬鹽以字典檔或暴力攻擊，難度便下降到跟沒加鹽一樣。
- 密碼加上固定位數的隨機數字
  引用「柯克霍夫原則」，駭客由程式碼得知前方 N 位是鹽，用查表反推的結果再移去前方 N 個字元便得到真正的密碼。
  由以上例子，我們可整理出好的鹽至少要具有：隨機產生、每個使用者不同、長度不固定等特色，若要讓破解難度更高，鹽的長度最好長一點並混入特殊符號，樣式接近一般密碼，甚至設計成有時加前面有時加後面甚至多處穿插。長度加長及包含特殊符號會使建立破解資料表的成本上升，樣式接近一般密碼且加入位置不固定可讓駭客即使反推成功，也不易分出哪部分是鹽，哪部分是真正的密碼。另外，如能將鹽跟雜湊分開儲存又更好，例如：只有密碼資料庫外流時，鹽不致同時落入賊人之手，破解難度會上升，但分開儲存將增加系統設計及管理複雜度，需衡量利弊。
什麼是高階密碼專用雜湊演算法？
MD5、SHA1、SHA256 這些雜湊演算法也用於檔案或文件內容檢核，以「內容稍有更動雜湊值就截然不同」、「難以竄改部分內容仍保持雜湊值一致」為最主要使命，依內容算出雜湊的過程愈有效率愈好。而雜湊函式用於密碼則有點不同，需全力防止由雜湊反推原始資料內容，於是就發展出一些需要消耗可觀 CPU 或記憶體才能完成雜湊演算法，例如：PBKDF2、Scrypt、Bcrypt、Argon2... 如此，駭客想暴力攻擊，每次計算雜湊要花的資源是 SHA256 的 N 倍，讓破解難度也驟升 N 倍。例如：若要在一年內破解 10 個字元的密碼，若用 MD5 雜湊只需一萬美金的電腦就可以辦到，若用 Bcrypt (95ms) 雜湊需要 12 億美金的硬體，Scrypt (64ms) 雜湊則需要 430 億美金。

圖表來源：Password Hashing: PBKDF2, Scrypt, Bcrypt
雖然用高階密碼雜湊在儲存密碼及每次比對密碼時要消耗較多 CPU、記憶體，會折損一些效能；但對駭客而言，暴力攻擊成本將被放大數百萬倍，幾已無實現可能。我把它想成七傷拳，靠自損三分立於不敗。
延伸閱讀：Password Hashing: Scrypt, Bcrypt and ARGON2

關於如何儲存密碼才安全，我簡單整理為以下四點：

「閃開，讓專業的來」是王道，優先考慮用微軟、Google 等大廠的服務或認識機制，非不得已別自己寫
如果要自己儲存，勿使用明碼或加密方式儲存，請務必使用雜湊並加鹽
加鹽原則：每個使用者不同、隨機無法預測、長度不固定、長一點並含特殊符號... 都有利於提高安全度
雜湊演算法選擇：隨著電腦計算能力不斷翻倍，SHA1、MD5 已被視為不安全，SHA256 已是基本要求，當用於密碼保護，可優先考慮使用 Scrypt、Bcrypt、ARGON2 等專門用來對抗暴力破解的密碼專用雜湊演算法

密碼要怎麼儲存才安全？該加多少鹽？-科普角度

密碼要怎麼儲存才安全？該加多少鹽？-科普角度

Recommend

On .NET Live - Things you didn't know about GitHub

ffdvn36262的个人空间

The .NET Docs Show - Serverless Machine Learning

Machine Learning Community Standup - Deep Learning with PyTorch & ONNX

为什么血液、精液等体液会在紫外光照射下发光？

Languages & Runtime Community Standup - Interview with Runtime Architect Jan...

源创会回归！这个1024，和马建仓线下面基啦

Indicted ex-Boeing pilot says he is a 'scapegoat' in MAX scandal

人工智能、机器学习、深度学习、神经网络，都有什么区别？

Edge 集錦備份與搬移

About Joyk