ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Regression - 회귀 모델
    CS/ML 2023. 10. 10. 21:11

    지도 학습에 종류에는 회귀(Regression)와 분류(Classification)가 있는데,

    이 둘은 '출력값의 종류'에 있어 차이가 있다.

     

    이산적인 값, 즉 연속적이지 않은(Discrete) 예측값을 출력하는 모델이 분류모델이고,

    연속적인 예측값(Continuous)을 출력하는 모델이 회귀모델이다.

     

    회귀 모델 중, 가장 기본적인 선형 회귀 모델에 대해 알아보겠다.

     

    선형 회귀(Linear Regression)

    선형 회귀 분석은, 단순 선형회귀와 다중 선형회귀로 구분할 수 있는데, 사실 구분에 큰 의미는 없다.

    독립변수(Feature)가 1개이냐, 2개 이상이냐 딱 그 차이 뿐이다.

     

    독립변수가 1개이면, 1차원적인 직선의 형태로 그래프가 나타날 것이고, 2개면 평면으로 나타날 것이다.

     

    위의 그림은 단순 선형 회귀이다.

    독립변수(Feature)의 값이 height of father로 하나이기에, 위와 같은 직선의 방정식으로 표현되는 것이다.

     

    독립변수가 두 개 주어진다면, 다음과 같이 표현될 것이다.

     

     

    결국 회귀분석이 하고자 하는것은,

    여러 데이터를 학습시켜 위의 방정식을 구하고

    -> 모든 베타의 값을 알면 되는것이다.

    방정식의 독립변수인 x의 값을 넣었을 때, 그에 따른 출력(Y)의 값을 구하고 싶은 것이다.

     

    그렇다면, 베타의 값(회귀 계수)은 어떻게 구할 수 있을까?

    앞서 본 방정식(모델)에 데이터를 넣었을 때 얻은 출력값과, 실제값의 차이에 따른 오류값을 잔차라고 부른다.

    최적의 회귀 모델을 만든다는 것은, 즉 전체 데이터의 잔차 합이 최소가 되는 모델을 만든다는 의미이다.

    다시 말해서, 잔차의 합이 최소가 되는 최적의 베타값을 찾아야 하는 것이다.

     

    오류의 값은 부호를 갖기 때문에, 전체 데이터의 오류 합을 계산할 때는 절대값을 취하거나 오류값의 제곱을 구해서 더해야한다. 보통 오류값의 제곱을 구해서 더하는 방식을 취한다.

    ->RSS(Residual Sum of Squre) 방식 : 오류의 제곱을 구해서 더하는 방식.

    오차의 제곱을 더한 값이 RSS이다. 

    오차의 제곱을 구한 식을 베타에 대해 미분하면,

    위와 같은 식을 얻어낼 수 있다.

    'CS > ML' 카테고리의 다른 글

    Bayesian Classfier  (0) 2023.09.28
Designed by Tistory.