Regression 이란?
- Input 변수(x)를 통해 연속형변수인 output (y, label, 종속변수)을 예측하는 모델링기법
- 연속형변수의예측이기때문에예측값
↔ 실제값의차이를통해모델성능평가
Regression Task
• 모델링목표
- 13개의input 변수들로 MEDV(주택가격)을 예측
- 새로운input 이생겼을때, 실제output값과최대한가까운예측
• 모델성능평가
- 전체데이터셋(506개)를7:3, 8:2 등의비율로trainset, testset으로 분리 (랜덤)
- Trainset 만으로 모델 학습후test set의 input X로 예측값을 계산,
test set의 실제 output 과 예측값 과의차이(RMSE등)를측정하여모델평가
Linear Regression
• 선형회귀모델은?
- Y = 𝛼+𝛽𝑥꼴로input x로 y를 설명하는모형.
- X에여러개의변수(=다중회귀)가사용되기도하며,
x들이선형결합으로이루어져있어서선형회귀모형
Linear Regression
• 선형회귀모델의학습(=회귀계수의추정법) : 최소제곱법
- 예측값과실제값의차이가최소가되도록만드는Regression line을찾는것
- 그때의절편과기울기를회귀계수라고하고, 최소제곱법이라는방법으로추정한다.
Linear Regression
• Dummy 변수
- Input 변수(x)들 중에 범주형변수를처리하기위한방법
CHAS 찰스강에대한더미변수(강의경계에위치한경우는1, 아니면0)
- One-hot Encoding을 통해 처리해줌(Dummy 변수)
메타코드 4기 서포터즈 활동의 일환으로 작성한 게시글입니다.