다양한 정보를 바탕으로 '검색 추천어'를 개발하고 있다.


지표 정보를  read_pv, read_uv, wirte_pv, write_uv, writer_uv 로 나누어 저장하고,

각 정보에 대한 가중치를 곱해 100점 만점의 점수표로 추천 검색의 순서(rank)를 정했다.


ES + R + MariaDB + java + python(hive) 로 진행하고 있다.


추가할 부분은 Time Decay에 대한 부분인데, 특정 지표에 대해서는 최신 데이터일수록 높은 가중치를 주는 방식으로 변경해 보았다.



(출처: https://www.borntosell.com/covered-call-blog)


이를 위한 참조 자료로 반감기(http://egloos.zum.com/taniguchi/v/2588675)를 참고로 해서 EXP 또는 ARCTAN 또는  Log 함수로 대충 느낌을 느낌을 낼 수 있다. (그냥 대충 숫자로 가중치 주는 것이 웃긴다.)  함수로 표현하기 위해서 https://www.desmos.com/ 를 사용한다. 그래프의 저장은 구글 계정으로 인증하면 구글 드라이브로 저장을 할 수 있다.


또한 논리적인 개념이 필요하니, http://docs.likejazz.com/k-ranker/ 블로그 글을 참조하여 나름 rank 시스템을 만들어보았다. 좀 더 다듬고 남이 어떻게 하는지 좀 보고 보정 작업을 진행할 예정이다. 





Posted by '김용환'
,