티스토리 뷰


EDA
Exploratory Data Analysis
탐색적 데이터 분석

 

EDA란
  • 데이터 분석에 있어 매우 중요한 초기 분석 단계이다.
  • 수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정
  • 해결하고자 하는 문제를 데이터를 통해 해결 방안을 찾는 과정
  • 시각화, 통계을 통해 가설을 검정하는 과정

 

 


EDA 목적
  • 가설을 세우기 전에 데이터를 이해하기 위함
  • 데이터의 분포 및 값을 검토함으로써 데이터를 잘 이해하기 위함
  • 데이터의 잠재적인 문제를 발견하기 위함
  • 다양한 각도에서 살펴보는 과정을 통해 문제정의 단계에서 미쳐 고려하지 못한 다양한 패턴을 발견하고,
    이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.

 

 


EDA 과정
  1. 문제 정의 단계에서 세웠던 연구, 질문 및 가설을 바탕으로 분석 계획을 세운다.
    - 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지,
       이를 위한 최적의 방법은 무엇인지가 포함 되어야 한다.


  2. 분석의 목적과 변수가 무엇이 있는지 확인하기
    • 개별 데이터 분석(Univariate)
      - 변수 1개만 확인하여 분석 한다.
         각 데이터를 설명하고, 패턴을 찾는 것이 주요 목적이다.

    • 한개 이상의 데이터 분석(Multi-variate)
      - 변수 한개 이상을 확인하여 분석 한다.
         여러 변수들간의 관계를 보는 것이 주요 목적이다.
         (전체 데이터 관찰을 하기 전에 개별 데이터를 먼저 파악하는 것이 이상값에 대처하기 용이 하다.)

    • 시각화(Graphic)
      - 시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정할 수 있다.

    • 비시각화(Non-Graphic)
      - 데이터를 눈으로 훑어보면서 전체적인 추세와 특이사항을 관찰할 수 있다.

    • 각 유형
      "Uni-Non Graphic(개별 데이터 비시각화)"
      # 주어진 데이터의 분포(Distribution)를 확인하는 것이 주목적.
      
      "Uni-Graphic(개별 데이터 시각화)"
      # 주어진 데이터를 전체적으로 살펴보는 것이 주목적.
      
      "Multi-Non Graphic(한개 이상의 데이터 비시각화)"
      # 주어진 둘 이상의 변수간 관계를 확인하는 것이 주목적.
      
      "Multi-Graphic(한개 이상의 데이터 시각화)"
      # 주어진 둘 이상의 변수간 관계를 전체적으로 살펴보는 것이 주목적.


  3. 이상치 탐지(Outlier Detection)
    • 이상치 분석
      - 이상치가 왜 발생했는지 의미를 파악하는 것 또한 중요하다.
         이를 통해 어떻게 대처해야 할지(제거, 대체, 유지 등)를 판단해야 한다.

    • 이상치 탐지 방법
      - 통계 값 활용
        (하이퍼링크-작성중)
      - 시각화 활용
         (하이퍼링크-작성중)
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함