-
Bayesian ClassfierCS/ML 2023. 9. 28. 21:31
Bayesian Classfier란?
Bayesian Classfier을 이용해서 우리가 하고자 하는 것은,
데이터 x가 주어졌을 때, 이 데이터가 '어느 클래스'에 속하는지 판단하는 것이다.
'x'는 데이터, 'wj'는 j번째 클래스를 나타낸다고 생각하고,
조건부확률 P(w1|x)d에 대해서 생각해보자.
P(w1|x)는 데이터 x가 주어졌을 때, wj일 확률을 가리킨다.
->즉! P(w1|x)와 P(w2|x)의 값을 비교해서,
P(w1|x) < P(w2|x)라면 x는 클래스 2,
P(w1|x) > P(w2|x)라면 x는 클래스 1에 속한다고 판단할 수 있는 것이다.
이렇게 P(w1|x)를 구하기 위해, 고등학교때 배웠던 베이즈 룰을 활용한다.
베이즈 룰 베이즈룰 활용 각 항을 가리키는 용어부터 알아보겠다.
P(wj | x) : posterior. (우리가 구하고자 하는 값)
P(wj) : prior
P(x | wj) : likelihood
P(x) : evidence
이제 각 항이 내포하는 의미를 알아보자.
Prior
사전확률 : 결과가 나타나기 전에 결정되어 있는 A의 확률
이 확률은, 우리가 모은 데이터셋과는 독립적인 관계로, 이미 사전에 알고있는 확률을 뜻한다.
노르웨이의 바다에 사는 물고기 중, 2/3이 연어이고 나머지 1/3이 대구라는 것을 사전에 알고있다 해보자.
이 경우 P(연어) = 2/3, P(대구) = 1/3이 되는 것이다.
Likelihood
우도 확률 : A가 발생하였다는 조건하에서 B가 발생할 확률
우리가 모은 데이터 셋에서 나타나는 빈도를 측정한 지표이다.
즉 우리가 모은 데이터들을 학습시켜, 이 확률을 변경시키는데 기여한다.
Evidence
정규화 상수라고도 부른다. 디시젼 바운더리를 정하는데 영향을 주지는 않는다.
Scale factor의 역할을 수행한다.
Posterior
prior과 likelihood에 기반하여 decision boundary를 결정한다.
-> Decision = likelihood * prior
-->Decision = 관측된 데이터 * 사전 지식
위에서 '사전지식'이 결정에 개입한다는 것이 베이지안 모델의 특징인데,
이는 사람이 결정을 내릴 때 하는 판단과 유사하다. (경험에 기반)
-> 사전 지식을 일종의 weight로 적용한다고 볼 수 있음.
'CS > ML' 카테고리의 다른 글
Regression - 회귀 모델 (1) 2023.10.10