- Exploratory Data Analysis (EDA)

수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 것 입니다.

데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정으로 데이터가 어떤 구조로 이루어져 있고

어떤 변수들이 존재하는지 등 데이터에 대한 탐색하는 것을 의미합니다.

 

 

- Numerical Summaries of Data (통계치)

: Summary statistics (요약 통계)란 가능한 한 많은 양의 정보를 전달하기 위해 일련의 관측치를 요약하는 데 사용됩니다.


 - mean (평균), median (중앙값)
 - mode: the moset common value (최빈값)
 - variance (분산), standard deviation (표준 편차)
 - quartiles (사분위수)
 - Number of distinct values for a categorical variable

 

 

- Graphical Summary

: Boxplot 이란 수치적 자료를 표현하는 그래프로 여러 개의 분포를 비교할 경우 유용합니다.

이 그래프는 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어낸 통계량인 5가지 요약 수치를 가지고 그립니다.

 

 - x-axis: categorical variable
 - y-axis: real-valued or integer variable
 - For each group, the boxplot shows (Median, Interquartile range, Whiskers, Outliers)
 - Negatives (Over-plotting, Hard to tell distributional shape)

 - ex) Boxplot image

 


: Histogram 이란 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것입니다. 더 간단하게 말하면, 도수분포표를 그래프로 나타낸 것입니다.

분포가 넓을 경우 유용하게 사용 가능합니다.

 

 - Histograms can be misleading for small data sets
 - For large data sets, histograms can be quite effective at illustrating general properties of the distribution

 - Effective only with one variable

 - Can smooth histogram using a variety of techniques

 - ex) Histogram image

 

 

- Exploring categorical variables (범주형 변수)

: Categorical data is examined using table rather than summary statistics
: Measuring the central tendency - the mode

 

 

- 2D Scatter plots

: Standard tool to display relation between 2 variables

: ex) Scatter plot image

 

 

- Spatial Data

: If your data has a geographic component, be sure to exploit it
: Data from  cities/states/zip cods - easy to get lat/long

: ex) Spatial image

 

 

- Jittering 

: 정수형 데이터가 겹칠 수 있으니 노이즈를 주어 데이터 별로 약간의 차이를 만듬

: ex) Jittering image

 

 

- Dimension Reduction (차원축소)

-고차원 데이터를 시각화하는 한 가지 방법은 2 차원 또는 3 차원으로 줄이는 것입니다.

 · 변수 선택-> ex : 단계적으로

 · 주요 구성 요소-> 최대 분산으로 p 공간에 대한 선형 투영을 찾습니다.

 · Multi-Dimensional Scaling, t-SNE-> P 차원 공간에 점을 포함하여 쌍별 유사성을 유지합니다.

 

- ex) Dimensionality reduction image

 

 

 아주대학교 정보통신대학원 손경아 교수님의 기계학습 및 데이터 마이닝 강의를 바탕으로 작성하였습니다.

 학습 목적으로 포스팅 합니다.

'Machine Learning' 카테고리의 다른 글

Decision Tree  (0) 2020.09.12
Support Vertor Machine  (0) 2020.09.12
KNN algorithm  (0) 2020.09.12
데이터 및 데이터 품질  (0) 2020.09.05
기계학습과 데이터마이닝  (0) 2020.09.05