정보과학회논문지: 데이터베이스 32권 2호 (2005.4) - 김성진, 이상호

이 논문은 유명사이트 집합과 임의사이트 집합에 속한 웹 문서들을 100일동안 주기적으로 수집하여 변경 경향을 관찰하고 그 실험결과를 내어 뤱 로봇의 운용에 도움이 되도록 관찰연구지이다.

성공적으로 다운로드된 URL은 여전히 잘 다운로드되고, 내용의 변경이 없던 문서는 여전히 현재 상태를 유지하는 것으로 나타났다. 절반정도들이 규칙적으로 변경이 된다. 웹 데이터 베이스의 freshness을 높이기 위해서는 이런 확률적 수식을 통해서 알 수 있다.

웹 문서의 주기별로 자주 바뀌는 것이 반정도, 안바뀌는 것이 반정도 있으며, 바뀌는 것은 주기가 있기 까닭에 웹 로봇의 변화 분석이 필요하다. 웹 문서 변화에 대한 잘못된 예측, 판단으로 인하여 발생할 수 있는 커버리지 손실에 대한 연구가 필요하라는 것이 논문의 주요 요지이다.

DMB 방송에서는 BWS라 하여 방송사에서 웹 컨텐츠를 전송할 때 무작정 보내는 것보다는 dynamic 컨텐츠는 따로, static 컨텐츠는 따로 전송하여 실시간으로 구분하여 전송하면 수신기단에서 파일이 바뀐 dynmaic 컨텐츠만 변경된 것으로 판단하여 잘 보는 게 중요하다.

이 논문을 본다면, 생산자-소비자 : 웹문서 - 웹로봇 : BWS 송출 - BWS 수신 으로 확장할 수 있으며, BWS 송출이 자주 변경되는 것과 변경되지 않는 것으로 구분하여 전송이 되는 것에 대해서 따로 따로 전송이 되어야 함에도 불구하고 이런 나누어서 전송하는 방법은 현재까지 존재하지 않는다.

파일 전송에 대한 스케쥴링도 전혀 생각치 않되어 있기 까닭에 이런 부분이 필요하다.
수신기는 따로 따로 전송되는 파일들을 분석하여 항상 freshness정보를 얻을 수 있으며, 사용자의 만족을 극대화 할 수 있는 장점이 있을 것이다.

Posted by '김용환'

댓글을 달아 주세요