제가 시스템 운영하면서 가장 귀찮았던 것 중의 하나가 하드 디스크 폴트로 인해서 서비스 재설치하는 것입니다..서비스 개발자는 매번 이런 귀찮은 작업이 우리들의 업무들의 일부를 갂아먹고 있는 것 같습니다.
Failure Trends in a large disk drive population 이라고, 구글도 고민한 글(논문이랄까요?)이 있더라구요..
구글의 bigtable을 관리하면서 이 자료가 만들어졌습니다. 구글에서는 SMART(drive’s self monitoring facility, http://en.wikipedia.org/wiki/S.M.A.R.T.) 라는 툴을 통해서 어떻게 하면 좋을까 하는 고민을 하면서 내놓은 글입니다..
2년지나면, 하드디스크에 문제가 확 나타나기 시작한데,.. 이거 완젼 우리와 똑같은 이슈가 있습니다. Dell장비는 2년만 지나면, 여기저기 하드디스크 깨지기 시작하고, 반복적인 일을 하게 됩니다. 처음엔 우리만 그런 줄 알았더니. 구글도 똑같은 이슈를 겪나 보네요..
이 논문의 결론을 말씀드리면,
다양한 신호를 통해서, 하드디스크 깨지는 요소들을 확인하였습니다.
중요 key는 다음과 같습니다.
1) 기존에 리포트된 것과 달리, 온도와 이용률(?, activity levels)과 failure rates는 거의 연관관계가 없다.
2) 중요 SMART 정보 (scan errors, reallocation counts, offline reallocation counts, and probational counts)가 중요하게 영향을 줄 수 있다.
3) SMART 만으로는 완벽하게 하드디스크 폴트를 예측할 수 없다고 합니다.
* SMART의 여러 파라미터중, 모든 파라미터로 확인하면 64%까지 하드디스크 깨지는 것을 확인할 수 있다고 합니다.
<comment>
구글도. 운영을 잘할려구 하는 듯~~
'paper and essay' 카테고리의 다른 글
Chubby, Paxos, Zookeeper, Zab 공부 (0) | 2013.01.18 |
---|---|
SERI - 인문학이 경영을 바꾼다. (0) | 2011.10.20 |
rysnc 에러 : rsync: connection unexpectedly closed (0) | 2008.04.10 |
bash 스트링 조작하기 - String 함수 구현하기 (0) | 2008.01.18 |
bash shell (0) | 2008.01.18 |