作者:實作派Lab
當遇到NAS突然出現錯誤訊息 Hard Disk 3 unplugged,系統告訴你「硬碟消失了」,但明明Disk 3仍好好的插在NAS上,出現這樣的故障,相信大家都非常詫異。然而本文並非告訴你如何維修硬碟,而是「找出問題的思路」,大家可以一起跟著以下的文字,試著模擬一下,如果是你的話會怎麼做?
下面是NAS回報的log,明明硬碟就還插在NAS上,但卻出現unplugged的訊息,請看紅圈標示1的部分。分析Log是除錯中很重要的依據,它是系統運作的紀錄,少了它會增加除錯的困難度。

NAS 回報的 log 除錯紀錄(圖片來源:實作派提供)
硬碟消失 重新插拔
由於NAS號稱硬碟可以熱插拔,所以我直接就把硬碟從運轉中的NAS拔出來,仔細觀察SATA接頭的金屬接點,看起來都亮晶晶的,目視也沒甚麼異狀,想說直接再插回去即可,因為或許只是單純「接觸不良」的問題,過去我修過很多電器都是這個問題,幾乎毫無例外。

SATA的金手指看起來沒有鏽蝕(圖片來源:實作派提供)
硬碟插回NAS之後竟然認到硬碟了,請看上方的log位在紅圈標示2的部分,既然認到了NAS就自動開始做重建RAID的動作,但好景不常大約過了1小時,如上圖的Log,NAS又回報Hard Disk 3 unplugged了,請看紅圈標示3的部分,原來在那之前系統已經告知無法存取HDD了,會不會是硬碟真的快掛了?
SMART滿分 接點清潔無效
由於每顆硬碟都有個健康診斷表稱為S.M.A.R.T,我想應該要檢查一下這張表,但問題是,現在硬碟是處於「拔出」的狀態,儘管它還是好好的插在NAS上,看來硬碟是被系統踢出來的。所以,我必須將硬碟拔出來再插回去,讓系統與硬碟連線後,才有機會看到SMART的報告。
插回硬碟之前,先清一清SATA接頭,既便它看起來沒有異狀,我還是拿起棉花棒沾一些WD-40溶劑來擦,因為它帶有些微腐蝕金屬的效果,某程度上算是「接點清潔劑」。於是把SATA接點煞有其事的擦一擦後再將硬碟插回NAS,系統果然又認到它了,接著趕快把握時間做SMART測試。

SMART回報結果——沒有錯誤(圖片來源:實作派提供)
上圖是SMART的測試結果,竟然完全沒問題!白紙黑字寫著Completed without error,SMART呈現健康狀況良好的硬碟,卻會時不時被系統踢出來unplugged,怎麼會這樣呢?但至少從這個測試,我可以確定不是SATA接頭的問題了,否則SMART資訊無法回傳。
原廠診斷程式
既然不是SATA connector的問題,那該不會是壞軌吧?若能夠用軟體方式來檢查問題,甚至解決問題,那當然是最好的,於是我找了seagate的診斷程式來用,想說原廠的程式應該比較原汁原味,於是又用這個程式做了一次SMART,結果一樣是沒問題,表示硬碟還很健康。
另外,我也做了短測short generic也沒問題,雖然Seagate沒有揭露到底測了甚麼,總之是PASS。但當我做到長測long generic,診斷程式看起來就一副當機的樣子,當我把診斷程式強制關閉再重開的時候,就再也scan不到這顆Seagate硬碟了,這感覺就是硬碟被偷走一樣,這不剛好跟NAS的回報訊息「Hard disk unplugged」有異曲同工之妙。
低階格式化-Low Level Format
若是裡面的壞軌造成,那我最後的大絕招就是做低階格式化low level format,至少它會把壞軌標記並跳開,而且我也不怕這顆硬碟的資料全毀。於是,我在網路上任意找了一款做Low Level Format的軟體,用來當作最後手段,沒想到才開始沒多久,竟然就跳出錯誤訊息Media was unplugged,而且再也scan不到這顆硬碟,除非我把電腦重開機,只要一做low level format就掛。

錯誤訊息——Media was unplugged(圖片來源:實作派提供)
從NAS、原廠診斷程式、到現在的低階格式化,都指出兩個事實。
- 硬碟還很健康,因為SMART滿分
- 硬碟會不定時離開系統
大膽假設 小心求證
由於,我沒有線路圖,甚至連硬碟的方塊圖也沒有,於是我大膽假設,硬碟會離線單純是因為通訊中斷,只要通訊持續暢通,SMART就能運作,而且SMART的資料量很小,若遇到需要存取大量資料,例如格式化、長週期測試,硬碟若通訊不穩定就容易出狀況。
所以通訊會容易在哪裡斷掉,就是接下來的重點了,也就是小心求證。硬碟的鐵殼裡面有碟盤與磁頭,這構成了存放資料的地方,由於鐵殼裡面的空間很小,基本上只有放馬達等機械裝置,控制磁頭與碟盤的邏輯電路則是在外面那塊綠色的電路板,這塊電路板是如何跟鐵殼裡面的電路溝通呢? 它總要有一個接觸介面吧,也許是接頭、也許是用簧片觸碰的。

硬碟是由控制電路與碟盤、磁頭所組成(圖片來源:實作派提供)
於是,我把硬碟翻過來仔細端詳,發現碟片轉軸外圈延伸了三條線到電路板下方,另外在靠近SATA接頭的附近,從側面的接縫也能隱約看見有類似接頭的東西,它似乎是從鐵殼內延伸出來的訊號端子,用它與外面的電路板接觸。這些線索讓我大膽推測這些接點極有可能就是造成HDD unplugged的元兇。因為訊號中斷就一切免談,而且它會真的與硬碟拔除是一樣的現象。
拆開電路板
該是見證理論是否正確的時候了,把螺絲卸下後,輕輕地翻開控制電路版,果然就發現電路板的PAD原本應該是古銅色的銅箔,現在都變成黑色的氧化物了,就連螺絲孔也一樣。

硬碟的控制PCB接點氧化變黑(圖片來源:實作派提供)
於是再拿出WD-40來擦拭鐵殼延伸出來的兩組接點,一個是馬達另一個是磁頭,雖然他們看起來沒有很髒,既然拆開了就順手清一清。再來就是清理嚴重氧化的電路板接點了,WD-40有些微腐蝕的效果,只需要輕輕擦拭就有效果。

清理硬碟鐵殼延伸出來的馬達訊號線(圖片來源:實作派提供)
清理之後如下圖,原本黑黑的接點露出古銅色了,只是有些黑黑的點點我無論怎麼擦都擦不掉,但它應該不影響運作。可以比較前面氧化的PCB照片,變得光亮有色澤。

清理過後的接點露出古銅色光澤(圖片來源:實作派提供)
清理完組裝好,接下來當然要好好測試一下,就來個低階格式化吧,大家不用擔心這會多傷硬碟,比起P2P這類的軟體不分晝夜地跑,偶爾做一次低階格式化不會怎樣的。
果然,接點清潔後通訊順暢,格式化就成功了,再也沒有出現HDD was unplugged的訊息,為何我這麼肯定? 因為這是一台3T的硬碟,它需要一個一個byte這樣格式化,比起之前不到30min就出現錯誤,絕對有天壤之別,所以我可以很肯定這算修好了。

低階格式化成功(圖片來源:實作派提供)
小結
對於這樣的維修處理我是否有擔心的地方呢? 說實話是有的,因為WD-40是透過輕微腐蝕才讓銅露出來的,若接點上面有任何表面防鏽處理,那也一並被我清掉了,將來是否會有加速生鏽的疑慮?我也不確定,就讓我們繼續觀察下去吧!
回顧過去我的維修DIY歷史,「接觸不良」還真的是永遠的第一名,從燈泡閃爍到硬碟故障居然都是同一個原因,還真是毫無例外,若有人能發明絕不氧化的導體,應該會很受歡迎,只是我猜應該很難賣,用不壞的東西與既有利益相衝突,應該沒有代理商想賣吧!
- 【實作實驗室】分配器效能測試 - 2024/12/30
- 【實作實驗室】頻道功率怎麼測?有線電視頻譜長這樣! - 2024/12/12
- 【實作實驗室】無線滑鼠游標定格,電源開關更換 DIY - 2024/11/12
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!
2019/09/03
我也是有顆硬碟上週五消失了,不過再次插回後花了14小時重建完就正常,所以在網路上尋找類似的事件而看到這篇文章。您能想到是該處接點有問題真的很厲害,說不定我可以用一樣的方法救回手邊的那些故障硬碟,感謝您。
另外,SeaTools本身就自帶低階格式化功能,名稱是Erase,要先選「基本檢測」中的「高級檢測」後按F8後才會出現,不需要第三方的程式喔! 😉