|
日経テクノロジーオンライン連載 ”そのHDD/SSDはなぜ壊れた?” |
HDD編(1).環境雰囲気が媒体/ヘッドを蝕む、敵はあらゆるところに
|
|
【HDD障害原因シリーズ1:環境雰囲気による故障】
近年、環境汚染ガスによる HDD不良が増える傾向が見受けられる。故障したHDDの調査をHDDメーカーや最終製品のメーカー、分析会社に依頼すると、ヘッドの故障・振動衝撃による故障など、別の原因が報告されるケースが少なくないようだ。今回は我々が調査依頼を受けたHDDの故障原因の中で、環境汚染ガスが原因となったものについて解説する。 我々が調査し、環境ガスが原因だと機器としては、製造設備のコントローラ、パソコン、レコーダー、POS端末など多岐にわたっている。
■環境汚染ガスによる不良発生箇所
環境汚染ガスによって発生した不具合としては、基板端子の腐食(写真1、図1)、媒体潤滑剤の劣化(図2)、媒体磁性膜の腐食やヘッドの読み出し/書き込み用の磁性層の腐食(図3)などがある。

写真1 腐食した基板端子

図1 化学分析装置により基板端子の成分同定をした結果 本来見られないS(硫黄)の成分を検出している。

図2 媒体潤滑剤劣化による膜厚の減少

図3 ヘッドの磁性層の腐食
現象としては稼働時間が、1〜2年以内に故障が多発する例が多い中には数カ月で故障に至るものもある。基板端子の腐食はHDDへの通電が不通となり、媒体潤滑剤劣化はヘッドの浮上量が不安定となり媒体表面にキズ付ける、ヘッド金属部の腐食は性能低下につながりErrorが多発する。 各々の障害でHDDは再起動でスピンドルモーターが回転を始めてもヘッドは媒体情報を認識せず故障に至る例が多い。
■環境汚染ガスの種類
では環境汚染ガスにはどのような種類があり、どこから発生し、どのような悪さをするのか。以下に我々がこれまで遭遇した汚染物質について紹介する。
【シロキサン】
機器筐体の振動衝撃の緩衝材として筐体にシリコンゴム足を使用する例が多く、シリコンゴムをHDDの取り付け面に使用する例も多い。しかし、シリコンゴムの製造過程で高温度による焼き出しが不十分であると、機器使用中にHDDおよび機器の自己発熱によりシリコンゴムからシロキサンガスが発生することがある。
HDDは媒体が内部に密閉されているように見えるが、実は外部とつながる空気穴が存在する。そのため、稼働による温度上昇によりHDD内部の気体が膨張し空気穴を通して外部へ排出される。稼働を停止すると温度が徐々に低下することで、HDD内部へ外気が取り込まれる。この際、外気にシロキサンガス(Siを含む)を含んだ空気があると、これをHDD内に吸い込む。
吸い込まれたシロキサンガス(Siを含む)は、ヘッドと媒体の摺動の摩擦熱により、酸素と化学反応し、結果としてSiO2の固形物が発生する。これが媒体表面を傷つけてしまうことは一般的に昔から知られている。
SiO2の固形物は、ヘッドと媒体に付着しヘッドのシークと媒体の回転により磁性層にひっかき傷を付け、記録層にダメージを与えデータを消してしまう。この他、ヘッドのリード/ライト用の磁性層を傷付け、読み書きが不能になるケースもある。
【硫黄系ガス】
硫黄系ガスは、自動車の排気ガス、梱包材料・緩衝材(段ボールなど)、電子部品から発生することがあり、これをHDD稼働中あるいは停止時にHDD内に吸い込む。HDD内に吸い込まれた硫黄系ガスは、金属の腐食成分となり、媒体の磁性層を腐食させる。
媒体のDLC(ダイアモンドライクカーボン)保護層、潤滑層(ルブリカント)のピンホール部分から、媒体の磁性層へ入り込み腐食させてしまう。
また、ヘッドの読み込み/書き込み用の素子のDLC保護層が媒体とヘッドの摺動による接触で摩耗し、金属として露出すると、この部分を腐食させてしまう。
【有機溶剤(アルコール/トルエン類)】
有機溶剤使用の洗浄機、オイル成分の脱脂の有機溶剤、燃料系(ガソリンスタンド)の揮発成分、HDD清掃時に使用するアルコール類などが揮発したガスもHDDの大敵である。
これらをHDD稼働中または停止時にHDD内に吸い込むと、これが媒体の潤滑剤のオイル成分を分解劣化させる。
最近のHDD媒体の潤滑剤の厚みは15〜20Å程度である。正常状態ではヘッドが媒体に接触しても問題がないが、潤滑剤の厚みが半分(50%)以下に減ると、ヘッドと媒体の摺動特性が悪化し、ヘッドがスムーズに媒体上を浮上できなくなる。結果として読み込み/書き込みエラーが発生するようになる。さらに、潤滑剤の減少が続くとヘッドスライダーと媒体の接触抵抗が大きくなりなり、媒体の金属を削り取り円周上に傷が残るクラッシュ (写真2)に至る。

写真2 ヘッドクラッシュの状態
※上記内容は、今まで経験した弊社の調査結果の見解であり、HDDベンダーや調査機関の情報と異なる場合があります。
■対策
上記のような問題を解決するための方策は、明らかである。まず、HDD搭載製品に使用する部材の化学調査を行う。具体的には、緩衝材の材料として、シリコンガス、硫黄系ガスが含まれていない部材を使用する。
さらに、HDD搭載製品の使用設備のガス分析調査を実施する。自動車の排気ガスがHDD搭載製品の使用設備に流入していないか、洗浄用の有機溶剤が空気中に飛散していないかなどを確認する。加えて、HDD搭載機器をなるべく、新鮮な空気の取り入れ口近くに設置する必要がある。一方で、設備のガス排気口の近くに設置しないようにすべきである。
『調査方法』
HDD
を劣化させる化学物質を特定するためには、様々な方法がある。以下ではそれを紹介する。
まず、HDD内部に入り込んだ環境汚染ガスを調査する方法。クリーンルーム内でHDDのトップカバーを開け、ガス吸着材をHDD内に装着しトップカバーを閉じて、HDDを加熱する。すると、内部ガスがガス吸着剤に吸収される。内部ガスを取り込んだガス吸着剤を化学分析装置(GC-MS)で分析することで環境汚染ガスを特定出来る。(図A-1、図A-2)
HDD
の使用環境の汚染度を調べるためには次のような手法がある。
HDDの吸気口をシールし、クリーンな密閉袋に入れ、HDDを加熱する。すると、HDDの外装材などからアウトガスが発生するので、この成分を調べる。
|
|
図A-1 化学分析装置で示された有機溶剤の痕跡 |
図A-2 化学分析装置で表示されたシロキサンガス |
HDD
内部の部品の汚染を調べる方法としては、部品(媒体・ヘッドキャリッジなど)を純水で洗浄し、洗浄水を化学分析装置(イオンクロマトグラフ)で分析する。
この他、汚染ガスによりHDDの媒体潤滑材の膜厚がどの程度減少しているか調査するには、エックス線光電子分光分析(μ−ESCA)による測定方法がある。
エックス線光電子分光分析により媒体潤滑材の元素の種類と量と化学結合状態を分析し潤滑材の膜厚を測定する。
HDD編(2).部品の加工精度がトラブルに、内なる敵にも注意が必要 |
|
【HDD障害原因シリーズ2: 起動不良障害 】
HDD搭載のパソコン/券売機、レコーダー、POS端末、コントローラー、サーバーなどのシステム製品を停止したら2度と起動しなくなった。そんな故障の調査を依頼されるケースが最近増えている。起動はするものの、エラーが多発し、起動不良を起こすケースもある。今回はこんな事例について紹介しよう。
■HDD故障状況
調査の結果見えてきたのは、約5000時間以上稼働しているHDDが、保守メンテナンス時・停電時等などによるHDD停止後、あるいはエラー多発によって再稼働をした後、起動不良が発生し、2度と起動しないという問題だ。2011年3月11日に発生した東日本の大震災の後、HDD起動不良が増えたという報告もある。SerialATA・ParallelATA・SAS(Serial Attached SCSI)の各HDDに共通してみられる現象で、数機種のHDDに発生しており、全容量帯(160G〜数Tバイト)で同様の傾向が見られる。
■HDD分解調査
起動不良のHDDを分解調査すると、(1)ヘッド破損(写真1、写真2)、(2)ヘッドが媒体に吸着(写真3、写真4)、(3)ヘッドクラッシュ(写真5、写真6)、(4)媒体表面への無数のヘッドの打痕キズ(写真7、写真8)などが観察され、多様な壊れ方をしていることが分った。
|
|
写真1 ヘッド破損 |
写真2 ヘッド破損 |
|
|
写真3 ヘッド吸着(外周部) |
写真4 ヘッド吸着(中周部) |
|
|
写真5 ヘッドクラッシュ |
写真6 ヘッドクラッシュ |
|
写真7(左) 媒体面ヘッド打痕 |
写真8(右) 媒体面ヘッド打痕 |
■ヘッド吸着問題
ヘッド吸着の原因として、ヘッドキャリッジのベアリングのボールの周囲にグリースが固着し、ヘッドがアンロード(媒体から退避エリアに移動すること)できずに媒体上でヘッドが停止すると説明されることが多い。これは、ヘッドがある一定の角度の範囲内でシークし稼働しているため、シーク範囲外のボールベアリング両脇にグリースが寄せ集められ塊となって稼働停止時にアンロードできなくなくなり、ヘッドが媒体上に停止し吸着するという理屈である。
本当にそうなのか。そこで数機種のヘッド吸着を起こしたHDDをそれぞれ複数台用意し、キャリッジベアリングを分解調査してみた。しかし、ベアリングの外輪と内輪の軌道面にグリースの塊は見つけることはできなかった。(写真9、写真10、写真11)
|
|
|
写真9 ベアリングの外観 |
写真10 内輪軌道面 |
写真11 外輪軌道面 |
そこで、故障したHDDのトップカバーを取り外し、ヘッドキャリッジを媒体の外周側へ移動させてみた。するとVCMマグネットの磁力によりランプ(退避領域)に強制的にアンロードさせられた。
これは、グリースの固着によるアンロード不良ではなかったことを示唆する。
グリースの固着以外に、ヘッドがランプに戻りきらず、媒体上でヘッドが動かなくなる原因を調べてみた。故障した
HDDと同機種、同ロット、同製造場所の
HDDをクリーンルーム内でスケルトン
HDDとして組み直した後、停電試験と再起動試験を実施し、媒体の回転出力、キャリッジの起動出力、
VCMの出力、ヘッドの出力の各出力信号を調べた。
購入してきたばかりの状態では、起動試験でヘッドキャリッジがランプに戻った後、媒体の回転出力が止まった。これは正常な動作である。(図1

図1 各信号のタイミング
これらのHDDに対して長時間の加速耐久性試験を実施した。約8000時間以上連続稼働させたHDDを起動停止させたところ、ヘッド変形(写真12、写真13)が発生した。その後、2度と起動せず、再起動を何度か繰り返すとヘッドが破壊(写真16)し、媒体面上にヘッド打痕キズ(写真17)が残った。
|
|
写真12 ヘッド変形 |
写真13 ヘッド変形 |
|
|
写真14 ヘッド変形品 |
写真15 ヘッド正常品 |
|
|
写真16 ヘッド破損 |
写真17 媒体キズ |
加速耐久性試験によって見えてきたのが、次のような現象だ。HDD部材にもともとあった加工ひずみにより、個々の部材には微小な変形が発生する。アンロード時にランプ上でヘッドが停止している時間は応力が開放されるため、ヘッドは変形し、稼働時間が延びるとともに変形が大きくなっていく。
大きく変形したヘッドは、再起動時に不安定な状態で動作する。場所によってはヘッドが媒体の端面に衝突し、さらに変形して媒体上へロードされる。そこまで変形したヘッドは、正常な浮上姿勢を保てず、媒体にキズを付けながら、媒体の回転に対してブレーキ役を果たし回転を止めてしまう。あるいは媒体に衝突を繰り返し、ヘッドが破壊された状態で(写真14)ランプに戻る。
ヘッドを2本以上有するHDDは、ヘッドによるブレーキ効果が大きく、媒体に吸着する場合が多い(写真3、4)。ヘッドが1本の場合はアンロード時にランプまで戻るが、この過程でヘッドが破壊される場合が多いようだ。
■偏光レンズを使って媒体を観察
外見上明らかな破壊やキズがなくても、起動不良を起こすケースもある。こうした場合に必要となるのが、媒体の詳細な観察である。媒体磁気記録面の金属表面観察に最適な方法としては、まず偏光レンズによる顕微鏡観察がある。
媒体の磁性膜表面は、鏡面状態となっており光源の光が反射するため、偏光レンズを通して反射光をカットし、不規則な乱反射光を顕微鏡を通して観察する。(写真18)(写真19)
|
|
写真18 媒体面ヘッドスクラッチ痕(120倍) |
写真19 ヘッド吸着痕(120倍) |
これにより、媒体面のヘッドによる引っ掻きキズ・打痕キズなどを調べることが可能となる。
■外観検査で異常がない場合でも起動不良が発生
ヘッドによる目に見えないダメージを受けた媒体表面は、光学顕微鏡では検査ができない可能性もある。潤滑層(ルブリカント)と保護層(
DLC)は透明な保護膜なので光が透過するためだ。こうした場合には、磁性層の表面(図2)を検査する磁気現像(写真
20、21)や、潤滑剤の表面を検査するルブリカント現像などが利用できる。それぞれ光学高倍率顕微鏡では見ることができない磁性層の磁気表面、ルブリカント表面のヘッド摺動痕(写真
22、23)が観察できる。

図2 磁性層の表面
|
|
写真20 磁気現像(25倍) |
写真19 写真21 磁気現像(100倍) |
|
|
写真22 ルブリカント現像(媒体外周部) |
写真23 ルブリカント現像(媒体内周部) |
磁性層の観察で分かったのは、媒体のHDD内部情報のエリアにキズが付くと、起動不良となるケースが多いことだ。
ルブリカント膜厚の測定からは、膜厚のバラツキによって性能低下を起こす可能性が判明した。写真22を例にとると、円周上のヘッド摺動痕の轍(わだち)による膜厚減少と盛上がりがある。この膜厚を測定してみると図3のようになっている。この凹凸がRead/Writeの性能低下を引き起こすことがある。分解調査でヘッド/媒体に外見上の異常が見られない場合はこの例が多いようだ。

図3 ルブリカント膜厚(横軸 半径方向 単位mm)
実際、我々の調査において、複数の機種で長時間稼働後、ルブリカントの膜厚の低下と盛り上がりが原因で起動不良を起こす可能性が高いことを確認している。この問題は、PATA、SATA、SASのといったインターフェースや2.5インチ、3.5インチといった媒体のサイズなどには関係がなく、数機種のHDDで同様のことが起きている。
なお、メーカー名の公表などは控えるが、分解調査解析から起動不良を起こした機種で使われている部品に共通の類似点があることが分かっている。
※本レポートは、我々の調査結果によるものであり第三者の調査結果を否定するものではありません。
【HDD編(3)振動衝撃がHDDにおよぼす影響】
HDDは、内部構造が複雑で振動や衝撃に弱い記憶装置である。このことはHDDを扱う者にとっては常識だ。ユーザー側でもこの意識は強く、筆者にも振動衝撃対策の相談が多く寄せられる。そこで、今回はどのような振動や衝撃が故障を導くのか、故障事例と対策について紹介する。
■振動衝撃による障害事例
HDD搭載製品で一般に懸念される振動や衝撃は次の2つに分類できる。自己振動と、外部環境からの振動および衝撃である。
自己振動はHDD搭載製品の可動部分が原因となって筐体を揺らし、これがHDDと共振して、最悪の場合、ヘッドクラッシュに至るものである。筐体を振動させる原因となるのは、複数台のHDD共振、空冷ファン/スピーカー音、警報音などがある。
外部環境からの振動や衝撃としては、設置環境の外部振動、パネル操作時の振動、輸送時の振動や衝撃、誤って落下させたときの衝撃などがある。
■振動によるHDDの弱点
振動においてHDDが故障するのは、自己振動にせよ、外部からの振動にせよ、共振状態が発生するためだ。共振状態が発生するのは、筐体に加わる振動とHDDの固有振動数が一致したときである。
この固有振動数の振動がHDDに伝わらないようにすることが振動対策になる。ただ、やっかいなことにHDDの固有振動数は2.5インチ型か3.5インチ型かといった大きさのみならず、機種によって微妙に違う。そのため、搭載HDDの固有振動数をあらかじめ知っておく必要がある。こうした固有振動数はスペックシートには載っていないため、個別に測定するしかない。
測定の方法は、2つある。1つは性能試験機による測定である。振動周波数を増大させながら、読み出し/書き込み性能を測定する試験である。固有振動数と合致すると、ヘッドと媒体が暴れて、うまく読み書きできなくなるため、読み出し/書き込み性能低下とエラーを起こす。これにより固有振動数が特定できる。測定は、一般に振動周波数を0〜2000Hzまで順次変化させていくことで実施する。図1、図2、図3は異なるモデルのHDDの振動特性を測定したものだ。ぞれぞれ、違う場所で性能低下が起こっていることが見て取れる。

図1 3.5インチ SATA HDD A社製 1Tバイト品の振動周波数による性能低下

図2 3.5インチSATA HDD B社製 1Tバイト品の振動周波数による性能低下

図3 3.5インチ SATA HDD C社製 1Tバイト品の振動周波数による性能低下
もう1つはSRS(shock response spectrum:衝撃応答スペクトル)解析である。SRS振動解析とは、ある固有振動数をもったそれぞれの部品から構成された製品が衝撃を受けた時に、それぞれの部品の加速度(G値†)応答の最大値を求める解析方法だ(図4)。ユーザーが定義した振動のプロファイルに合わせた波形を生成し、加振システムにマウントされた機器の衝撃を測定する。SRS振動解析により、振動源および外部環境の振動がHDDにどのような加速度(G値)を与えているかを調べられる。
G値
=物がぶつかってから止まるまでの速度の変化(=加速度)を重力加速度9.8(m/s
2
)で割った値を、衝撃値といい、末尾にGを付けて表す。

図4 SRS(Shock Response Spectrum:衝撃応答スペクトル)解析イメージ
測定したい場所にX、Y、Zの3軸の加速度センサーを置く。図では@、A、Bの場所に置いたセンサーの波形を示した。
■振動対策の実例
では共振の傾向を得たとして、振動対策をどのようにするのか。この調査および解析の過程を、アーケードゲーム機に施した振動対策を例にして説明したい。
事例のゲーム機は、ゲームのプレー中に読み出し性能が低下し、途中で映像画面が動かなくなりゲームが中断するトラブルを生じた製品だった。そこでHDDの振動性能とゲーム中にHDDに加わる振動を、性能試験とSRS解析などの手法を使って比較調査した。
調査では、まずゲーム中のHDDの振動周波数と読み出し/書き込み性能の関係を観察した。図5(a)は振動周波数、図6(a)は読み出し/書き込みの結果だ。この結果から80〜90Hz、350Hz、1000Hz付近の周波数に共振点があることが分かる。そこで、振動がHDDに伝わらないように、HDD固定の防振ゴムと筐体の防振構造変更により、共振周波数の振動が発生しないように手当した。

図5 改善前と改善後のSRSの解析結果

図6 改善前と改善後の読み出し速度
その上で、振動対策後のゲーム中にHDDに加わる振動を調査した。図5(b)、図6(b)がその結果である。ここから、80〜90Hz、350Hz、1000Hz付近の周波数に共振点が改善されたことが分かる。この対策により、改善前に発生していたゲーム中の読み出し性能の低下が、改善後に発生しなくなり、途中で映像画面が動かなくなりゲームが中断するというトラブルがなくなった。
このように、HDDに加わる振動の周波数を解析することによって、HDDの仕様を超えるG値が加わっていないか調べ、超過するようであれば事前に手当しておくことが重要だ。
■衝撃の評価
HDDには加速度センサーが取り付けられており、稼働時に落下衝撃が加わると、ヘッドがランプへ退避し、ヘッドと媒体の衝突を未然に防ぐ仕組みを備えるものがある。SMARTの情報に衝撃値を書き込むHDDも増えてきている。そこで、HDDの衝撃耐性の落下試験を行い、検査してみた。
最初に2.5インチHDDを使用し、事務机70cmの高さから床(タイルカーペット:厚み4mm)へ落下させた。落下後、読み出し性能を測定すると、1回目の読み出しで性能低下が顕著に表れた。ところが、2回目の読み出しで性能は元に戻った(図7)。SMART情報の衝撃値・代替えセクターの数値に変化はなかった(表1)。

図7 落下による読み出し性能への影響
表1 SMART情報(落下前の読み出し後と落下後の読み出し後)

この不思議な現象は、HDD落下により、HDD内部フィルターがため込んでいた埃が外部に飛び出し、HDD内にばらまかれたための性能低下だと推測される。2回目の読み出しのときには、ダストが再度内部フィルターに捕集されていたのだろう。
媒体面の損傷やヘッド吸着はなかった。ヘッドキャリッジの重心は、キャリッジベアリングの回転中心近くにあるため、ランプに退避しているヘッドは、落下衝撃を受けてもヘッドが媒体上へ飛び出すことはないためだ。以上から、2.5インチ型であれば、停止状態において70cmの床への落下ではHDDで障害が発生しないと考えられる。
次に、3.5インチ250GバイトのHDDを停止時に落下させる実験を行った。60cmの高さからHDDのX方向とZ方向に2回、床(タイルカーペット:厚み4mm)へ落下させた。この後、読み出し/書き込み性能を調べたところ、1回目から性能の劣化はなかった(図8)。

図8 3.5インチHDD落下試験の結果
3.5インチのHDDも、停止時にはヘッドがランプへ退避しているので、読み出し/書き込み性能の低下はなく、パフォーマンスに影響を与えないことが観察された。
■稼働中の衝撃には注意
一方、稼働中のHDDは落下による故障を起こしやすい。実際、先の3.5インチHDDを稼働中に60cmの高さから落下させると起動不良となった。
ではHDD内部で何が起きているか。筆者に調査依頼のあった事例で説明しよう。この調査で扱ったHDDは当初80Gバイトの位置に読み出しエラーが発生していた。さらに、2回目の読み出しを行うと30G〜60Gバイト付近にもエラーが発生した(図9)。これは障害物の落下の衝撃でヘッドが媒体に衝突して媒体面にキズを付け、2回目の読み出しでキズの破片によりエラー領域が拡大したためだと推測された。

図9 障害物落下後の性能
実際、HDDを開封し媒体面を調べたところ、推測の通りヘッドによる打痕キズが発生していた。媒体面の潤滑剤(ルブリカント)を現像したところ、ヘッド摺動痕が見られた。打痕キズ上のルブリカントの膜厚を調べたところ、ヘッドスライダー幅でルブリカントが削り取られていることも分った(図10)。つまり、稼働中においては、障害物がHDDへ落下した時にヘッドがランプに待避できず、媒体面を傷つける可能性が高いわけだ。

図10 ヘッド衝撃によるルブリカント膜厚分布
HDDの稼働中の衝撃では、以上に加え、衝撃値が小さくてもHDDが故障し、逆に衝撃値が大きくてもHDDが故障しない場合がある点にも注意が必要だ。稼働中におけるHDDの仕様上の衝撃耐性は、3.5インチHDDの場合、2msで約30〜100G、2.5インチHDDは1msで約225G、2msで約400Gという値が一般的だ。いずれも仕様上は250Hz近辺の周波数で最大G値を示している。
しかし、HDDを構成するヘッドや媒体の固有振動数は800Hzより高い高周波側にある。衝撃の大きさは小さくても、周波数800Hz以上の衝撃が加わると、ヘッドや媒体が共振し、ヘッドスライダーで媒体面を傷つけてしまう危険性がある。つまり、仕様以下の弱いG値の衝撃であっても高い周波数の振動成分を抑える必要がある。金属性の筐体に取り付けられたHDDは、低周波の衝撃であっても、筐体内の金属同士が衝突した結果、低周波の衝撃が高周波に変化することが知られている。
このため、匡体フレームの設計、空冷ファンの取り付け方法、HDD取り付け場所や取り付け方法の検討、制振材料である緩衝材のゴム足、制振シート、緩衝材ワッシャーなどの選定により、高周波の振動成分が出ないように工夫する必要がある。我々は、ノートパソコン、サーバー、ATM、コピーなどの複合機、ゲーム機、HDDレコーダなど、HDD搭載機器で改善実績がある。
【HDD編(4) 流体軸受けの不良や高温多湿も大敵】
これまでHDDの障害の原因として、ガスやヘッドの加工精度、振動を紹介してきた。今回は、HDDに故障を引き起こす、これら以外の原因について紹介しよう。
■流体動圧軸受けの不良が原因に
最初に紹介する事例は、流体動圧軸受(FDB:fluid
dynamic bearing)で発生する問題だ。FDB-SPMは、軸と軸受けの間に流体(オイル)を満たしてあるスピンドルモーター(SPM)で、FDBはモーターが回転すると、オイルに流れが発生する(図1、写真1、写真2)。軸受け内面には深さ0.01mm程度のV字型の溝が彫ってあり、流体はこの溝に沿って流れ込む。V字の部分に圧力が発生し、この圧力で軸を支える仕組みである。

図1 FDB-SPM断面概略図

写真1 SPM部

写真2 SPM金属製スリーブ(分解)
HDDのスピンドルモーターにFDBが採用され始めた初期のころは、稼働後数年で故障する事例が多数見受けられた。それは次のような原因だった。FDBのオイルを大気雰囲気でスピンドルモーター内に充填すると、空気の微小気泡や水分などが混入する。長時間稼働すると、軸受けの溝に沿ってオイルが加圧される部分と摩擦熱の膨張によって減圧される部分が現れ、キャビテーション(気泡)が発生しモーターが空回りする。
この結果、ディスクがうまく回らないという回転異常が発生した。一旦停止し、再稼働させるとしばらくは稼働するが、回転異常が再現してしまい、最終的には全く回転しなくなってしまう。この他、FDBオイルの充填量不足により8000〜10000時間でモーターの軸と軸受けが接触し、摩耗によってモーターが故障するという現象も見受けられた。
最近のFDBは製造時にオイルを真空環境下でスピンドルモーター内へ充填しているため、上記の様な、モーターが空回りする現象はなくなった。ただし、金属製のハウジング(写真4)の他に、樹脂製のハウジング(写真3、4、5)を搭載する機種が増えて来た。樹脂製ハウジングでは隙間からオイル漏れが発生する場合がある。オイルがFDBから漏れ出すと、媒体面上に拡散し、HDD性能低下やエラーを引き起こす(写真6、図2)。
|
|
写真3 樹脂製SPMの外観 |
写真4 樹脂製SPMのスリーブ |
|
|
写真5 樹脂製SPMのスリーブ断面 |
写真6 媒体面の液状付着物 |

図2 フーリエ変換型赤外分光 (FTIR)による組成分析
写真6の液状付着物を採取し、解析した。SPMのオイルが漏れだしていることが分かった。
こうした問題に遭遇しないためには、品質試験によるオイル漏れ調査、分解によるFDB構造解析が必要である。また、HDDのトップカバー側を上に向けるように設置した方が良い。トップカバー側を下に向けると、スピンドルシャフト部が下に向くので、そこからオイルが垂れてくる可能性があるためだ。
■高温環境下で潤滑剤(ルブリカント)が劣化
常時高温環境下にさらされているHDDは、常温環境下で使用されるHDDよりも短命だ。メディア表面に薄く塗られている潤滑剤(ルブリカント)の粘度が熱によって小さくなり、膜厚が薄くなりヘッド/媒体の摺動特性が悪化するためだ。
そのことを実験してみた。比較したのは、新品のHDDの潤滑剤膜厚と高温環境下(仕様上限温度の60度)で長期(3カ月)稼働試験を行ったHDDである。潤滑剤の膜厚の調査(図3)を行ったところ、新品は15Åあるのに対して、高温環境試験品はほぼ全域で5Å以下と、かなり減っていた。一般にHDDの稼働寿命は、新品の膜厚の半分とされる。5Åは3分の1であるのでHDDの稼働寿命を超えたレベルである。

図3 高温試験による潤滑剤(ルブリカント)膜厚の低下
■ヘッドのアクセス集中も問題に
次に紹介するのは、媒体面上の特定の場所にヘッドアクセス回数が集中するとエラーを引き起こし、短命に終わるという現象だ。
HDDの使用領域をクリッピングして容量より少なくして使う場合、また特定の場所に対して頻繁にデータを読み書きする場合などに、その場所の潤滑剤の減りが異常に早くなることで引き起こされる(図4、写真7、写真8)。クリッピングとは、HDDの設定を変更し、大容量のHDDを指定容量に変換して、使用できる容量を制限するものである。例えば、500Gバイトの製品を160Gバイト品として利用するわけだ。この問題の対策は媒体全面のデータエリアをまんべんなく使用することである。

図4 潤滑剤(ルブリカント)膜厚
ある特定のエリアでの膜厚が大きく減少していることが分かる。
|
|
写真7 媒体摩耗痕(ルブリカント現像) |
写真8 媒体摩耗痕(高倍率写真) |
■隣接トラックのデータが消える
データの書き換えを何度も繰り返しているうち、書き換えていない近くのデータを消してしまうという問題が昔から現在に至るまで発生している。
磁気ヘッドの書き込みの磁力が、本来の書き込みトラック範囲を超えたところまで書き換えてしまう問題だ。
原因は、HDDのヘッドスライダー面の摩耗、高温・多湿の環境、振動/衝撃などによるヘッド浮上量の低下である。浮上量が小さくなることで、ディスクに影響を及ぼす磁力が相対的に大きくなり、隣接した磁気データにも影響を及ぼしてしまう。
調査依頼をされたHDDに、3カ月間の使用で書き込んでもいないセクターに書き込みエラーが発生したものがあった。
高温・多湿環境では、ヘッドの浮上量の低下に加えて、磁気データの劣化によりエラーが発生するものもある。図5に出力が弱くなった劣化したデータの一例を示す。

図5 読み出しの出力
対策は、同じロットの製品を事前にテストすること。特定のセクターに数万回書き込みを行い、特定セクターに隣接する磁気データが劣化したかどうかを調べる方法がある。
■初期性能劣化品がまた流通
本連載の第2回「HDD編(2)部品の加工精度がトラブルに、内なる敵にも注意が必要
」で、ヘッドの部品に加工不良があり、それが障害をもたらす事例を紹介したが、最近またサーバー機に搭載される一般的なHDDの機種の中で同様の問題が見られたので、最後に触れておく。これは、稼働開始後3〜6カ月経過した後、一定の割合のHDDの性能が低下し、やがてエラーが多発して使えなくなるという事例である。
我々に持ち込まれたHDDを分解調査すると、ヘッドのジンバルスプリングが変形(写真9a、写真10a)し稼働時の浮上量に影響を与えるヘッドが見つかっている。正常品(写真9b、写真10b)と比べると明らかに違いが判る。これは製造作業時の変形と推定される。稼働初期のころは正常に動いていたものが、時間の経過と共にヘッドの変形が拡大し、スライダー面が媒体面を擦りやすくなっていった。結果として、媒体潤滑剤(ルブリカント)に摺動痕(写真11)が発生し、やがてエラー多発による稼働停止に至るものと考えられる。

写真10 ヘッドの変形その2
1枚のディスクに対して1つのヘッドが付いている製品で、ディスクを取り出したところ。

写真11 ディスクの摺動痕
この機種の利用開始6カ月までと、6カ月以降で平均のエラー率を比較すると、6カ月以降の方が低くなる。これは、初期の性能劣化品がエラーによって除去され、正常品のみが残ったためだと考えられる。
対策は、最初から性能低下が発生しているHDDを事前に排除しておくことである(図6)。

図6 初期性能低下品
転送レートが大きく変動しており、初期状態から不安定であることが分かる。
HDD編(5).いきなりの電源断ではHDDは壊れない |
|
【HDD編(5) いきなりの電源断ではHDDは壊れない】
HDD編の最終回となる今回は、番外編として、「HDDは稼働中にいきなり電源を遮断すると壊れる」という迷信について述べたい。実は、現在のHDDではいきなりの電源断することが故障につながらない。
そのことを実際に確認してみた。SATA 3.5インチHDDデータ書き込み中にHDD供給電源をいきなり遮断し、1分後に再起動する動作を2回繰り返した(図1)。次にHDDデータ読み出し中にHDD供給電源をいきなり遮断し、1分後に再起動するという動作をやはり、2回を繰り返してみた(図2)。

図1 書き込み中にそれぞれHDD電源を2回遮断したときの書き込み速度

図2 読み出し中にそれぞれHDD電源を3回遮断したときの読み出し速度
その後、電力を投入するとHDDは正常に再起動した。HDDの全領域に渡って読み出してみた。図3のように書き込み中に電源遮断した箇所は書き込みエラーとして残っている。しかし、今度は電源断なしに書き込みを行ったところ、データが正しく書き込まれた(図4)。読み出しでは転送レートの性能低下・エラーが発生することはなかった(図5)。

図3 図1、図2の実験を終えた後に、読み出してみたところ
書き込み時に電源断をしたところでエラーが出た。

図4 図3のデータを上書き
上書き時の書き込みでエラーは出なかった。

図5 図4のデータの読み出し
読み出しでエラーは出なかった。
また、同HDDでヘッドシーク中にHDD供給電源を遮断したところ、正常に稼働を停止した。その後、電源供給を再開したところ、HDDは正常に立ち上がり読み込み/書き込みの転送レートの低下やエラーの発生はなかった。SMART値の変化もなかった。
これは電源遮断時にメディアの回転によるスピンドルモーターの逆起電力が働き、この電力を使って正常に停止したことを意味している。
SMART
図6)において
ID=5(交代セクター数)、ID=196(交代セクター処理発生回数)、ID=197(現在の異常セクター数)、はそれぞれ
0でありSMART値の変化はなかった。書き込み中/読み込み中に電源が遮断されても、再度正しく書き込みすることによりHDDは正常に戻る。HDDの故障は発生しない。

図6 SMART情報
|