머신 러닝의 지도학습을 공부하다 보면 회귀와 분류에 대한 내용이 나오는데.. 둘 다 비슷한 확률적인 공식을 기반으로 동작한다고 보면 된다.





1. 분류라 하는 영역은 이산 값을 포함하는 유한 집합에서 레이블을 예측하는 것이다. 이것과 저것을 분류하는 것이다. binary/multiclass classification 이 이런 종류이다. 예를 들어 예/아니오 등과 같은 boolean을 얻는 형태이다.



2. 회귀는 연속된 값을 예측하는 것이다. 차원 감소, SVG와  spark을 보면 predict함수가 존재한다. 예를 들어 앞으로 직원들의 성과를 기반으로 하는 연봉 추이를 얻을 수 있는 내용을 얻을 수 있다. 







아래 참고자료가 명확히 이해할 수 있는 내용이라 참조한다. 


참조 : https://www.slideshare.net/ssuser163469/ndc-2016-61452271



분류는 미리 정의된, 가능성이 있는 여러 클래스 레이블 중 하나를 예측하는 것이다. 앞 장에서 붓꽃의 품종을 예측하는 것은 분류에 속한다. 분류는 두 개로 분류하는 이진 분류(binary classification)과 셋 이상으로 분류하는 다중 분류(multiclass classification)으로 나누어 진다. 이진 분류는 예 / 아니요만 나올 수 있다고 보면 된다. 남자, 여자로 나눌 수도 있지만, 남자인가? 라는 질문에는 예와 아니요로 바꿀 수 있기 때문에 결국 예 / 아니요라고 볼 수 있다.

붓꽃 예제의 경우 3개의 클래스를 가지고 있기 때문에 다중 분류이다.


회귀는 연속적인 숫자(실수)를 예측하는 것이다. 어떤 사람의 교육 수준, 나이 등을 이용해 연봉을 예측하는 것도 회귀 문제의 예이고, 몸무게를 이용해 키를 예측하는 것도 회귀 문제라고 볼 수 있다.


출력 값에 연속성이 있다면 회귀 문제라고 볼 수 있다. 연봉을 예상할 때 1억이든 1억 1만원이든 큰 문제가 되지 않는다. 하지만 분류 문제에서는 중간은 없다. 예를 들어 스팸메일을 분류한다면 스팸 메일이거나 아니거나 두 가지로 나누어지는 것이지 중간인 메일은 없다.

Posted by 김용환 '김용환'

댓글을 달아 주세요