티스토리 뷰
EDA
Exploratory Data Analysis
탐색적 데이터 분석
EDA란
- 데이터 분석에 있어 매우 중요한 초기 분석 단계이다.
- 수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정
- 해결하고자 하는 문제를 데이터를 통해 해결 방안을 찾는 과정
- 시각화, 통계을 통해 가설을 검정하는 과정
EDA 목적
- 가설을 세우기 전에 데이터를 이해하기 위함
- 데이터의 분포 및 값을 검토함으로써 데이터를 잘 이해하기 위함
- 데이터의 잠재적인 문제를 발견하기 위함
- 다양한 각도에서 살펴보는 과정을 통해 문제정의 단계에서 미쳐 고려하지 못한 다양한 패턴을 발견하고,
이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
EDA 과정
- 문제 정의 단계에서 세웠던 연구, 질문 및 가설을 바탕으로 분석 계획을 세운다.
- 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지,
이를 위한 최적의 방법은 무엇인지가 포함 되어야 한다. - 분석의 목적과 변수가 무엇이 있는지 확인하기
- 개별 데이터 분석(Univariate)
- 변수 1개만 확인하여 분석 한다.
각 데이터를 설명하고, 패턴을 찾는 것이 주요 목적이다. - 한개 이상의 데이터 분석(Multi-variate)
- 변수 한개 이상을 확인하여 분석 한다.
여러 변수들간의 관계를 보는 것이 주요 목적이다.
(전체 데이터 관찰을 하기 전에 개별 데이터를 먼저 파악하는 것이 이상값에 대처하기 용이 하다.) - 시각화(Graphic)
- 시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정할 수 있다. - 비시각화(Non-Graphic)
- 데이터를 눈으로 훑어보면서 전체적인 추세와 특이사항을 관찰할 수 있다. - 각 유형
"Uni-Non Graphic(개별 데이터 비시각화)" # 주어진 데이터의 분포(Distribution)를 확인하는 것이 주목적. "Uni-Graphic(개별 데이터 시각화)" # 주어진 데이터를 전체적으로 살펴보는 것이 주목적. "Multi-Non Graphic(한개 이상의 데이터 비시각화)" # 주어진 둘 이상의 변수간 관계를 확인하는 것이 주목적. "Multi-Graphic(한개 이상의 데이터 시각화)" # 주어진 둘 이상의 변수간 관계를 전체적으로 살펴보는 것이 주목적.
- 개별 데이터 분석(Univariate)
- 이상치 탐지(Outlier Detection)
- 이상치 분석
- 이상치가 왜 발생했는지 의미를 파악하는 것 또한 중요하다.
이를 통해 어떻게 대처해야 할지(제거, 대체, 유지 등)를 판단해야 한다. - 이상치 탐지 방법
- 통계 값 활용
(하이퍼링크-작성중)
- 시각화 활용
(하이퍼링크-작성중)
- 이상치 분석
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 파이썬
- underscore
- anaconda
- 연산속도
- conda
- sep=
- 재귀함수 이해
- matplotlib
- asd ad
- recursive function
- recursive
- 파이썬 변수
- 재귀함수 설명
- 백준
- 덮어쓰기
- 재귀?
- 콘다
- sdsad
- _의미
- sad asd
- 이중 프린트
- Python
- print()
- _meaning
- d asd asd
- parameters
- 변수 덮어쓰기
- list comprehension
- arguments
- 이스케이프 코드
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함