저번 시간까지 배웠던 것은
선형회귀 모델의 가설과 Cost 등을 살펴보고
더 나아가 Multi variable의 경우에서 알고리즘을 알아보았다.
선형회귀의 가장 큰 특징 중 하나는 '회귀'라는 이름에 맞게 특정 값을 예측할 때 이용할 수 있다.
(선형 모델이기에 음수인 값이 나오면 안되는 경우는 사용할 수 없다)
하지만 우리가 마주하는 문제들이 '회귀' 만 있는 것이 아니다.
카테코리를 나누고 입력으로 받은 값이 어떤 범주에 속하는지 찾아내는 '분류' 알고리즘도
대표적이 ML, DL의 역할이 될 수 있다.
분류는 두 개의 카테고리를 기준으로 하는 Binary Classification과
그 이상의 카테고리로 나누는 Classification이 있다.
0과 1을 이용한 0,1 encoding을 통하여 이들을 구분하는 방법이 널리 이용된다.
이제 어떤 알고리즘을 택할 것인지를 생각해봐야 할 것이다.
연구자들도 가장 쉽게 접근할 수 있는 선형 모델을 분류 문제들에도
적용해보려고 했을 것이다.
0,1 이진분류 문제에서 선형 모델을 적용해본 예시이다.
현재 그어진 세로 선을 기준으로 pass와 fail이 구분된다.
하지만 오른쪽 data가 추가됨에 따라서 모델이 더욱 기울어지게 된다.
그와 동시에 판단 기준이 달라지며
pass로 정확히 예측되던 제일 왼쪽 값이 제대로된 예측에서 벗어나게된다.
즉, 분류에 선형모델을 사용했을 때 가장 큰 문제는 사소한 데이터의 추가에도 모델이 크게 왜곡될 수 있다는 점이다.
즉, 왜곡을 최소화시키기 위한 처리가 필요하고 때문에 등장한 것이 바로 sigmoid 함수이다.
시그모이드 함수는 어떤 input이 들어오더라도 결괏값을 0~1사이의 값으로 바꿔주기에
선형 모델의 왜곡을 줄여줄 수 있는 매우 좋은 장치가 된다.
따라서 선형 모델의 결과를 시그모이드 함수에 넣은 결과가 이진분류를 위한 좋은 가설 모델이 되고
우리는 이것을 'Logistic Classification'이라고 부른다.
막연히 어떤 알고리즘이 어떤 역할을 하는지 어떤 원리가 있는지 따로 배우는 것이 아니라,
앞선 수업에서 연관된 부분을 배우고 어떤 이유에서 다른 함수를 적용시켰는지를 배우는 방법이
이해가 잘 되도록 도운 것 같다.
'딥러닝 > 모두를 위한 딥러닝 시즌1' 카테고리의 다른 글
[모두를 위한 딥러닝 시즌1] Lec06. Softmax Regression의 개념과 Cost (4) | 2024.02.07 |
---|---|
[모두를 위한 딥러닝 시즌1] Lec05-2. Logistic Classification의 Cost (2) | 2024.02.07 |
[모두를 위한 딥러닝 시즌1] Lec04. Multi-Variable linear regression (3) | 2024.02.07 |
[모두를 위한 딥러닝 시즌1] Lec03. Linear Regression의 Cost 최소화 알고리즘의 원리 (2) | 2024.02.05 |
[모두를 위한 딥러닝 시즌1] Lec02. Linear Regression의 Hypothesis와 Cost (4) | 2024.02.04 |