제가 시스템 운영하면서 가장 귀찮았던 것 중의 하나가 하드 디스크 폴트로 인해서 서비스 재설치하는 것입니다..서비스 개발자는 매번 이런 귀찮은 작업이 우리들의 업무들의 일부를 갂아먹고 있는 것 같습니다.  

Failure Trends in a large disk drive population 이라고, 구글도 고민한 글(논문이랄까요?)이 있더라구요..

http://static.googleusercontent.com/external_content/untrusted_dlcp/labs.google.com/ko//papers/disk_failures.pdf

 

구글의 bigtable을 관리하면서 이 자료가 만들어졌습니다. 구글에서는 SMART(drive’s self monitoring facility, http://en.wikipedia.org/wiki/S.M.A.R.T.) 라는 툴을 통해서 어떻게 하면 좋을까 하는 고민을 하면서 내놓은 글입니다..



2년지나면, 하드디스크에 문제가 확 나타나기 시작한데,.. 이거 완젼 우리와 똑같은 이슈가 있습니다. Dell장비는 2년만 지나면, 여기저기 하드디스크 깨지기 시작하고, 반복적인 일을 하게 됩니다. 처음엔 우리만 그런 줄 알았더니. 구글도 똑같은 이슈를 겪나 보네요..

 

이 논문의 결론을 말씀드리면,

다양한 신호를 통해서, 하드디스크 깨지는 요소들을 확인하였습니다.

 

중요 key는 다음과 같습니다.

1) 기존에 리포트된 것과 달리, 온도와 이용률(?, activity levels)과 failure rates는 거의 연관관계가 없다.

2) 중요 SMART 정보 (scan errors, reallocation counts, offline reallocation counts, and probational counts)가 중요하게 영향을 줄 수 있다.

3) SMART 만으로는 완벽하게 하드디스크 폴트를 예측할 수 없다고 합니다.

  * SMART의 여러 파라미터중, 모든 파라미터로 확인하면 64%까지 하드디스크 깨지는 것을 확인할 수 있다고 합니다.


<comment>
구글도. 운영을 잘할려구 하는 듯~~
 

Posted by '김용환'
,