본문 바로가기
Data Mining

데이터 마이닝. 데이터 탐색 (Exploratory Data Analysis, EDA)

by save-time 2024. 8. 29.

데이터 탐색 (Exploratory Data Analysis, EDA)는 데이터 마이닝에서 중요한 단계로, 데이터의 구조와 특성을 이해하고 분석의 방향을 설정하기 위한 과정입니다. EDA는 데이터의 패턴, 트렌드, 관계, 이상치를 식별하고, 데이터 분석과 모델링을 위한 기초적인 인사이트를 제공하는 데 중점을 둡니다. 이 단계는 데이터 전처리 이후, 모델링 전에 수행됩니다.


 데이터 탐색의 주요 목표


1. 데이터 이해:

   - 데이터의 전반적인 구조와 속성을 이해합니다. 변수의 의미, 데이터의 범위와 형식, 결측치와 이상치 등을 파악합니다.

2. 패턴 및 트렌드 식별:

   - 데이터 내에서 패턴, 트렌드, 계절성 등을 식별하여 데이터의 주요 특징을 분석합니다.

3. 관계 분석:

   - 변수 간의 관계를 분석하여 상관 관계, 인과 관계 등을 이해합니다.

4. 이상치 탐지:

   - 데이터에서 비정상적으로 높은 값이나 낮은 값, 다른 값과 차별화되는 값을 식별하여 문제를 분석합니다.

5. 데이터의 분포 분석:

   - 데이터의 분포를 이해하고, 데이터가 어떻게 퍼져 있는지를 분석합니다.


 데이터 탐색의 주요 방법 및 기술


1. 기술 통계 (Descriptive Statistics):

   - 평균 (Mean): 데이터의 평균 값을 계산합니다.
   - 중위수 (Median): 데이터의 중간 값을 계산합니다.
   - 최빈값 (Mode): 데이터에서 가장 자주 발생하는 값을 식별합니다.
   - 표준편차 (Standard Deviation): 데이터의 변동성을 측정합니다.
   - 사분위수 (Quartiles): 데이터의 분포를 네 구간으로 나누어 각 구간의 경계를 측정합니다.

2. 데이터 시각화 (Data Visualization):

   - 히스토그램 (Histogram): 데이터의 분포를 시각화합니다.
   - 상자 그림 (Box Plot): 데이터의 중앙값, 사분위수, 이상치를 시각화합니다.
   - 산점도 (Scatter Plot): 두 변수 간의 관계를 시각화합니다.
   - 히트맵 (Heatmap): 변수 간의 상관 관계를 시각화합니다.
   - 막대 그래프 (Bar Chart): 범주형 데이터의 빈도나 값을 시각화합니다.
   - 선 그프 (Line Chart): 시간에 따른 데이터의 변화를 시각화합니다.

3. 상관 분석 (Correlation Analysis):

   - 상관 계수 (Correlation Coefficient): 두 변수 간의 관계의 강도를 측정합니다. Pearson 상관 계수, Spearman 순위 상관 계수 등이 있습니다.

4. 분포 분석 (Distribution Analysis):

   - 정규성 테스트 (Normality Test): 데이터가 정규 분포를 따르는지 여부를 테스트합니다.
   - 밀도 함수 (Density Function): 데이터의 분포를 시각화하여 데이터의 밀도와 분포를 이해합니다.

5. 이상치 탐지 (Outlier Detection):

   - Z-score: 데이터 포인트가 평균으로부터 몇 표준편차 떨어져 있는지를 측정하여 이상치를 식별합니다.
   - IQR (Interquartile Range): 데이터의 사분위수를 사용하여 이상치를 식별합니다.

6. 군집 분석 (Clustering Analysis):

   - 군집화 기법: 데이터 포인트를 유사성에 따라 그룹화하여 데이터의 구조를 이해합니다. K-평균 군집화, 계층 군집화 등이 있습니다.


 데이터 탐색의 실행 예시

1. 매출 데이터 분석:

   - 기술 통계를 사용하여 매출의 평균, 중위수, 변동성을 분석합니다.
   - 히스토그램을 사용하여 매출 분포를 시각화합니다.
   - 상자 그림을 통해 이상치를 식별합니다.
   - 산점도를 사용하여 매출과 광고 비용 간의 관계를 분석합니다.

2. 의료 데이터 분석:

   - 기술 통계를 통해 환자의 나이, 혈압 등의 평균값과 변동성을 분석합니다.
   - 상관 분석을 통해 혈압과 콜레스테롤 간의 관계를 확인합니다.
   - 히트맵을 사용하여 변수 간의 상관 관계를 시각화합니다.

3. 소셜 미디어 데이터 분석:

   - 텍스트 데이터의 단어 빈도 분석을 통해 주요 키워드와 주제를 식별합니다.
   - 감정 분석을 통해 댓글의 감정을 시각화합니다.
   - 상자 그림을 사용하여 댓글의 길이 분포를 분석합니다.


 데이터 탐색의 중요성

- 문제 정의: 데이터 탐색을 통해 문제를 명확히 정의하고 분석 목표를 설정할 수 있습니다.
- 모델링 준비: 데이터의 특성과 관계를 이해하여 적절한 모델을 선택하고, 데이터 전처리 및 모델링에 필요한 조치를 결정할 수 있습니다.
- 인사이트 제공: 데이터 탐색을 통해 데이터의 주요 인사이트를 발견하고, 비즈니스 의사 결정이나 연구 문제 해결에 도움이 되는 정보를 제공합니다.


 결론

데이터 탐색은 데이터 분석 과정에서 매우 중요한 단계로, 데이터의 구조와 특성을 이해하고 분석 방향을 설정하는 데 도움을 줍니다. 기술 통계, 데이터 시각화, 상관 분석, 이상치 탐지 등 다양한 기법을 활용하여 데이터의 패턴과 관계를 발견하고, 데이터 분석 및 모델링을 위한 기초를 마련합니다. EDA를 통해 데이터에 대한 깊은 이해를 바탕으로 보다 신뢰성 높은 분석 결과를 도출할 수 있습니다.