- Exploratory Data Analysis (EDA)
수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 것 입니다.
데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정으로 데이터가 어떤 구조로 이루어져 있고
어떤 변수들이 존재하는지 등 데이터에 대한 탐색하는 것을 의미합니다.
- Numerical Summaries of Data (통계치)
: Summary statistics (요약 통계)란 가능한 한 많은 양의 정보를 전달하기 위해 일련의 관측치를 요약하는 데 사용됩니다.
- mean (평균), median (중앙값)
- mode: the moset common value (최빈값)
- variance (분산), standard deviation (표준 편차)
- quartiles (사분위수)
- Number of distinct values for a categorical variable
- Graphical Summary
: Boxplot 이란 수치적 자료를 표현하는 그래프로 여러 개의 분포를 비교할 경우 유용합니다.
이 그래프는 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어낸 통계량인 5가지 요약 수치를 가지고 그립니다.
- x-axis: categorical variable
- y-axis: real-valued or integer variable
- For each group, the boxplot shows (Median, Interquartile range, Whiskers, Outliers)
- Negatives (Over-plotting, Hard to tell distributional shape)
- ex) Boxplot image
: Histogram 이란 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것입니다. 더 간단하게 말하면, 도수분포표를 그래프로 나타낸 것입니다.
분포가 넓을 경우 유용하게 사용 가능합니다.
- Histograms can be misleading for small data sets
- For large data sets, histograms can be quite effective at illustrating general properties of the distribution
- Effective only with one variable
- Can smooth histogram using a variety of techniques
- ex) Histogram image
- Exploring categorical variables (범주형 변수)
: Categorical data is examined using table rather than summary statistics
: Measuring the central tendency - the mode
- 2D Scatter plots
: Standard tool to display relation between 2 variables
: ex) Scatter plot image
- Spatial Data
: If your data has a geographic component, be sure to exploit it
: Data from cities/states/zip cods - easy to get lat/long
: ex) Spatial image
- Jittering
: 정수형 데이터가 겹칠 수 있으니 노이즈를 주어 데이터 별로 약간의 차이를 만듬
: ex) Jittering image
- Dimension Reduction (차원축소)
-고차원 데이터를 시각화하는 한 가지 방법은 2 차원 또는 3 차원으로 줄이는 것입니다.
· 변수 선택-> ex : 단계적으로
· 주요 구성 요소-> 최대 분산으로 p 공간에 대한 선형 투영을 찾습니다.
· Multi-Dimensional Scaling, t-SNE-> P 차원 공간에 점을 포함하여 쌍별 유사성을 유지합니다.
- ex) Dimensionality reduction image
아주대학교 정보통신대학원 손경아 교수님의 기계학습 및 데이터 마이닝 강의를 바탕으로 작성하였습니다.
학습 목적으로 포스팅 합니다.
'Machine Learning' 카테고리의 다른 글
Decision Tree (0) | 2020.09.12 |
---|---|
Support Vertor Machine (0) | 2020.09.12 |
KNN algorithm (0) | 2020.09.12 |
데이터 및 데이터 품질 (0) | 2020.09.05 |
기계학습과 데이터마이닝 (0) | 2020.09.05 |