Ssa!

스파르타 내일배움캠프 머신러닝에서의 전처리 본문

CS/머신러닝

스파르타 내일배움캠프 머신러닝에서의 전처리

Ssa! 2022. 10. 11. 20:36

전처리란?

전처리는 넓은 범위의 데이터 정제 작업을 뜻한다. 필요한 데이터를 지우고 필요한 데이터를 취하는 것 NULL값이 있는 행을 삭제하는 것 정규화, 표준화 등의 많은 작업들을 포함하고 있다.

 

 만약 각각의 특성들이 단위도 다르고 값의 범위도 차이가 클 수 있는데 일단 단위가 다르면 직접적으로 비교가 어렵다. 또한 단위가 같더라도 값의 범위가 다르면 문제가 된다. 이런 문제들을 해결하는 것이 정규화 또는 표준화를 사용한다. 어떤 방식이 더 좋은지는 데이터셋에 따라 다르다

 

정규화란?

정규화는 데이터를 0과 1사이의 범위를 가지도록 만든다 같은 특서으이 데이터 중에서 가장 작은 값 0으로 만드록 가장 큰 값을 1로 만든다. 

 

표준화란?

표준화는 데아터의 분포를 정규분포로 바꿔준다. 즉 데이터의 평균이 0이 되도록하고 표준편차가 1이 되도록하여 만들어 준다. 

 

일단 데이터의 평균을 0으로 만들어주면 데이터의 중심이 0에 맞춰지게 된다. 그리고 표준편차를 1로 만들어 주면 데이터가 깔끔하게 정규화가 된다. 이렇게 표준화를 시키면 일반적으로 학습 속도(최저점 수렴 속도)가 빠르고 , Local minima에 빠질 가능성이 적다.