- Simple linear regression
: Classification의 목적은 class(y의 label)를 맞추는 것이고,
Regression 또한 y를 예측하는 것은 중요하나 실수 값이므로 완벽하게 예측하기가 불가능합니다.
따라서 Regression은 어떤 변수가 어느정도의 영향력으로 y에 영향을 미치는 여부를 예측 값 만큼 중요시 합니다.
: Find a linear line that best fits the data points (x 1 ,y 1 ), (x 2 ,y 2 ), ..., (x n ,y n)
: 주어진 여러개의 line 중에서 특정 line에 의해 예측한 y 값과 실제 y 값의 차이를 최소화 하는 line을 찾는다.
- For each training data (Xi , Yi)
: 일반적으로
- Least squares (최소 제곱법)
: "최적 적합"은 실제 Y 값과 예측 Y 값의 차이가 최소임을 의미합니다.
잔차 제곱합을 최소화하는 계수 찾기입니다.
- Estimating model parameter
: 훈련 데이터 => n 개의 샘플
목표 => 실제 목표와 예상 목표 간의 차이 최소화
1. 최소 제곱 추정
: 다음 목적 함수 (Sum of Squared Errors, SSE)를 최소화하는 β 0, β 1 찾기
: 2 차 다항식
: 각 계수에 대한 f의 미분을 취합니다.
이후 계수를 얻는 방법?
: 볼록함수 (볼록 함수는 임의의 두 점을 이은 할선이 두 점을 이은 곡선보다 위에 있는 함수입니다.
엄밀히 말하면, x, y과 [0,1] 사이의 값 t에 대해 f\leq tf+f(y) 가 항상 성립하는 함수 f를 가리킵니다.)
: 고유 최소 포인트
2. 매개 변수의 유도
: 최소 제곱 (LS) : 제곱 오차 최소화
=> β0로 미분한 값입니다.
=> ∑ 기호를 제거하고 - 기호가 들어가는 평균으로 표현하였습니다.
3. 계수 방정식
: Prediction equation
: Sample slope (기울기)
: Sample Y - intercept (y 절편)
=> 위 값들이 linear regression을 학습한 결과물입니다.
- Multiple Linear Regression
: Fit a linear equation between a dependent variable Y and a set of predictors X=(X 1 , …, X p)
(종속 변수 Y와 예측 변수 집합 X = (X 1,…, X p) 사이에 선형 방정식 적합)
: Parameter 측정
: feature의 수가 늘어나면 역행렬이 존재하지 않을 수 있거나 계산하기 어려울 수 있다.
: 제곱 오차의 합을 최소화하는 β 값 선택
: β의 최소 제곱 추정치
- Pearson’s Correlation coefficient (피어슨의 상관 계수)
: x, y의 선형 정도를 측정
값은 +1에서 -1 사이의 값을 가집니다. (값이 0일 경우 상관 관계가 없습니다.)
기울기의 값이 아니라 완벽한 선형 관계를 가지면 1의 값을 가집니다.니
- 일반적인 최소 제곱 법 (OLS)에 의한 모델 피팅
: linear regression 으로 얻을 수 있는 값은 x 값에 따라 예측할 수 있는 y 값들의 평균 정도로 해석하는 것이 좋습니다.니
- Model Assumptions (모델 가정)
- Performance measure (성능 측정)
: linear regression 평가 지표
: R^2는 내 모델에 의해서 분산이 얼마나 줄어드는지 확인합니다.
Overfit을 잘 반영하지 못하는 특색이 있어서 약간 변형한 것이 R^2 adj 모델입니다.
- Robust regression
: linear regression 은 평균과 관련이 있기도 해서 outlier 에 굉장히 민감합니다.
Robust regression은 outlier 을 버리고 중요한 지표만 뽑아서 사용하는 방식입니다.
- Modeling nonlinear regression
: 관계가 선형이 아닐 경우 비선형인 2차, 3차 고차 다항식 사용합니다.
사용시 model이 overfitting 하지 않는지 확인하여야 합니다.
: Feature에 대해 transformation 진행
아주대학교 정보통신대학원 손경아 교수님의 기계학습 및 데이터 마이닝 강의를 바탕으로 작성하였습니다.
학습 목적으로 포스팅 합니다.
'Machine Learning' 카테고리의 다른 글
Logistic regression (0) | 2020.09.29 |
---|---|
Model selection (1) | 2020.09.29 |
Ensemble method (0) | 2020.09.19 |
Performance Metrics (1) | 2020.09.17 |
Evaluation (0) | 2020.09.17 |