개발/(3) 머신러닝(ML), 딥러닝(DL)

K-MOOC 파이썬 머신러닝 공부 1일차

생각외로깔끔함 2022. 11. 21. 15:41
728x90
반응형

 

머신러닝의 기초와 용어

 

 

1. 머신러닝이란(개념)

 - 데이터를 컴퓨터를 통해 함수를 사용해서 스스로 학습시키고 예측을 하는 것을 의미
 - 딥러닝도 머신러닝의 일종
 - CPU와 GPU(그래픽카드, 병렬 계산) computing
 - Learning system의 구성 요소

 ==> 환경(E, Enviroment), 데이터(D, data), 함수(M, model), 평가(P, Performance)
 - 평가 기준 : MSE(제곱 편차 평균)

 

2. 머신러닝 학습 개념

 - Linear Regression : 선형 분석 (input과 out이 관계가 있다.) - MSE
 ==> 선형적인 관계이므로 ax = y 의 모양으로 발생

 ==> 완벽히 그리는 것은 불가능에 가깝고, 오차가 적도록 만드는 것이 목표
 ==> Learning 이란 최적화와 가장 개념이 비슷함
 ==> 우리가 할 수 있는건, 데이터를 추출하는 것

 

3. 머신러닝 프로세스 및 활용

 - Supervised Learning(지도 학습) : 범주형(강아지, 고양이, 자동차, 비행기, Classification), 연속형(연속적인, Regression)
 - Generalizaion Error and Hyperparameter
 1) Training error : 학습시킨 것에서 발생하는 오류
 2) Validation error : 일반적인 오차, 예측 오차
 complexity : 복잡성
 Hyperparameter : 모형을 구축하고 특성을 규정하는 외적인 요소

 

4. 머신러닝 프로세스 개요

 1) 비즈니스와 데이터에 대한 이해
 2) 데이터 전처리
 3) Training 과 Test 데이터 나누기
 4) 알고리즘을 사용하여 모델(함수) 만들기
 5) 모델 적용하고 평가하기
 6) 현실에 적용하기(배포)
 7) 지식 습득 및 수정

 

Data 관련 용어
 - Dataset : 정의된 구조로 모아져 있는 데이터 집합
 - Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
 - Feature(Variable, Attribute) : 데이터를 구성하는 하나의 특성(숫자형, 범주형, 시간, 텍스트, 이진형)
 - Label(Target, Response) : 입력 변수들에 의해 예측, 분류되는 출력 변수

분류와 회귀
- 분류(Classification) : 종속변수(y)가 범주형일 때 사용하는 모델(입력된 보험 청구권에 대해서 자동심사와 인심사분류)
- 회귀(Regression) : 종속변수(y)가 연속형일 때 사용하는 모델(날씨, 유가, 경제 지표 등을 이용한 주가 예측)

Data 준비 과정
 - Dataset Exploration(EDA, Exploratory Data Analysis) : 데이터 모델링을 하기 전에 데이터 변수 별 기본적인 특성 파악
 - Missing Value : 일부 데이터가 수집되지 않고 결측치로 남아있는 부분(처리 필요)
 - Data types and Conversion : 데이터 형식을 계산할 수 있는 형태로 변환 필요
 - Normalization(정규화, Scailing 한다고 표현) : 데이터 변수들의 단위가 크게 다른 경우들은 정규화가 필요
 - Outliers : 관측치 중에서 다른 관측치와 크게 차이나는 관측치 처리
 - Feature Selection : 많은 변수 중에서 중요한 변수만 선택하기
 - Data Sampling : 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때, 앙상블 모델링을 할 때 가지고 있는 데이터를 일부 추출하는 과정을 거치기도 함

 

5. Modeling

 - Model : 모델은 입력 변수와 출력 변수 간의 관계를 정의해 줄 수 있는 추상적인 함수 구조
 - Underfit : 너무 간단하게 학습한 경우
 - Overfit : 너무 깊게 학습한 경우
 - Optimal : 적절하게 학습된 경우

 

6. Modeling 검증

 - Training error : training data 의 오차

 - Validation error : test data 의 오차

 

7. 머신러닝 분류 모델링

classification과 regression을 분류하는 기준
출력변수(y)가 연속형이면 Regression, 범주형이면 Classification

Bias-Variance Tradeoff
- 모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
- 가장 좋은 성능을 내기 위해 최적의 Hyperparameter를 찾아야 함
- Bias : 치우쳐져 있음, 오차값이 얼마나 떨어져 있는가
- Variance : 모형들이 다양하게 출력하는 변동성

Classification의 예시
범주형(categorical) 종속변수 : Class, Label
제품이 불량인지 양품인지 분류
고객이 이탈고객인지 잔류고객인지 분류
카드 거래가 정상적인지 아닌지

Classification model은 문제 상황에 따라 적합한 모델을 선택해야 함

 

8. K-Nearest Neighbors

K는 임의의 숫자를 의미(Hyperparameter)

두 관측치의 거리가 가까우면 Y도 비슷함

K 개의 주변 관측치의 Class에 대한 majority voting(다수결)

Distance-based model, instance-based learning

거리가 가장 가까운 관측치 3개를 골라 봤더니 그림처럼 발생
 

 

출처 : http://www.kmooc.kr/courses/course-v1:SSUk+SSMOOC20K+2022_T1/about / 수업 내용을 듣고 정리함

 

실습으로 배우는 머신러닝

 

www.kmooc.kr

 

728x90
반응형