F7 project

[ EDA ] : Exploratory Data Analysis 탐색적 데이터 분석은 무엇인가.

EDA Exploratory Data Analysis 탐색적 데이터 분석 EDA란 데이터 분석에 있어 매우 중요한 초기 분석 단계이다. 수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정 해결하고자 하는 문제를 데이터를 통해 해결 방안을 찾는 과정 시각화, 통계을 통해 가설을 검정하는 과정 EDA 목적 가설을 세우기 전에 데이터를 이해하기 위함 데이터의 분포 및 값을 검토함으로써 데이터를 잘 이해하기 위함 데이터의 잠재적인 문제를 발견하기 위함 다양한 각도에서 살펴보는 과정을 통해 문제정의 단계에서 미쳐 고려하지 못한 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다. EDA 과정 문제 정의 단계에서 세웠던 연구, 질문 및 가설을 바탕으로 분석 계획을 세운다..

ML&DNN 2022. 8. 13. 11:07

[AWS : Ubuntu] Git설치 & GitHub 레포지토리 불러오기

우분투(Ubuntu) 깃(Git) & 깃허브(GitHub) git 패키지 리스트 업데이트 apt-get을 통해서 패키지 리스트 업데이트 진행 $ sudo apt-get install git 더보기 Reading package lists... Done Building dependency tree... Done Reading state information... Done git is already the newest version (1:2.34.1-1ubuntu1.4). git set to manually installed. 0 upgraded, 0 newly installed, 0 to remove and 33 not upgraded. Git 설치 $ sudo apt install git 더보기 Readi..

개발/개발 환경 2022. 8. 11. 10:26

[sum] : 모든 items를 더하는 함수

sum() Signature: sum(iterable, /, start=0) Docstring: Return the sum of a 'start' value (default: 0) plus an iterable of numbers Type: builtin_function_or_method sum() python 내장 함수 반복가능(iterable)한 type을 전부 더해준다. = 반복가능(iterable)한 type : - String, List, Tuple, Dictionary, Range, Set - 단, String은 sum()을 지원하지 않는다. 'start' value를 우선으로 하여 item을 다 합한 값을 반환한다. iterable = → 반복가능(iterable)한 type을 입력 받는다...

Python/Analysis to Python 2022. 8. 3. 13:30

[NLP] OoV, Out of Vocabulary란?

컴퓨터가 자연어를 이해하는 기술이 크게 발전한 이유중 하나 OoV 해결(완화) OoV : Out of Vocabulary 단어 집합에 존재하지 않는 단어들이 생기는 상황 (TrainSet 당시 없던 단어가 TestSet에 있을 경우) OoV(Out of Vocabulary)문제란 무엇인가? 위 내용을 더 간략하게 아래와 같이 이야기 할 수 있다. - Train데이터로 만든 단어 사전에 없는 단어가 발생 "단어 사전에 없는 단어" 자세한 설명 학습(Train)데이터에 대해 모든 단어를 토큰화 하여 Vocabulary를 만들고, 그 Vocabulary를 기준으로 정수 인코딩(단어를 컴퓨터가 계산가능하도록 숫자로 표현)을 하게된다. 이때, 실 예측(Test)데이터에 학습(Train)데이터에 없는 새로운 단어 ..

ML&DNN/NLP 2022. 8. 1. 19:03

[f-string] : 문자열 포맷팅 딥하게 알아보기 + Tip

시작에 앞서 본 내용은 학습 내용을 기록하기 위함이며 내용에 틀린 점이 있을 수 있으니 이점 유의 부탁드립니다. 문자열 포맷팅 Formatted String 문자열 포맷팅이란? 문자열안에 원하는 어떤 값 또는 계산된 값을 삽입하여 문자열로 사용하기 위한 방법 이를 문자열 보간법이라고도 한다. 문자열 포맷팅 방법 Python에는 3가지의 문자열 포맷팅 방법이 있으며 이는 아래와 같다 1. 고전적인 문자열 포맷팅(Classic String Format) >>> blog_name = 'F7 project' >>> visit_num = 20 >>> print('Blog : "%s"의 방문자 수는 %d 입니다.' %(blog_name, visit_num)) Blog : "F7 project"의 방문자 수는 20 ..

Python/Analysis to Python 2022. 7. 27. 21:27

[Batch Size] 왜 데이터를 나누게 되었는가?(임시 저장)

본 내용은 ML, DNN을 학습함에 있어서 기록하는 것으로 틀린 내용이 존재합니다. Batch Size란? 모델이 학습하는 과정에서 최적화(Gradient descent)를 한번에 몇개의 데이터를 가지고 할 지 데이터 그룹의 크기를 나타내는 단위. Batch Size에 따른 명명 법 Full Batch : Full-Batch size Gradient descent 1epoch당 전체 데이터에 대해 1회 parameter update가 발생한다. Mini Batch: Mini-Batch size Greadient descent 1epoch당 전체 데이터에 대해 (전체 데이터 / Batch size)올림한 횟수의 parameter update가 발생한다. 1 Batch size(SGD) : Stochasti..

ML&DNN/제목 미정 2022. 7. 18. 13:48

Batch-Normalization은 왜 해야하는가? (정리중~)

시작에 앞서 본 내용에서는 Batch-Normalization이란 무엇이며 왜 해야하는가에 대해 스스로 어느정도 이해하고 있는지 정리해볼 예정입니다. Batch-Normalization Min Batch 내의 분포를 스케일링 하는 과정 Why? Batch 단위로 학습을 하면 발생되는 문제 : Internal Covariant Shift Internal Covariant Shift : 학습 과정에서 계층 별로 입력의 데이터 분포가 달라지는 현상 위와 유사하게 Batch 단위로 학습을 하게 되면 Batch 단위간에 데이터 분포의 차이가 발생할 수 있다. 이 문제를 개선하기 위한 개념이 Batch Normalization How? 각각의 Min-Batch 마다 적용 각각의 Batch마다 적용함으로써, 크게 분..

ML&DNN/제목 미정 2022. 7. 12. 11:31

[DNN project]: 타이타닉 생존자 예측.EDA

HTML 삽입 미리보기할 수 없는 소스 데이터 확인 Summary - kaggle - load Raw data df = pd.read_csv('./data/train.csv') df.info() 더보기 RangeIndex: 891 entries, 0 to 890 Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 PassengerId 891 non-null int64 1 Survived 891 non-null int64 2 Pclass 891 non-null int64 3 Name 891 non-null object 4 Sex 891 non-null object 5 Age 714 no..

개인 공간/project 2022. 7. 10. 21:49

[split] : 문자열을 나눠주는 함수

.split() Signature: .split(self, sep=None, maxsplit=-1) Docstring: Return a list of the words in the string, using sep as the delimiter string. Type: method_descriptor .split() str 내장 함수 괄호안의 첫번째 파라메터 문자를 구분자로 하여 문자열을 나눠 준다. 구분자(delimiter) : 임의의 기호로 성립되는 열을 구성 요소로 구분 짓기 위한 문자 . 앞에 str(문자열)을 입력 기존 str(문자열)을 나누어 list로 반환한다. → list type으로 반환 sep = → 나눌 기준이될 문자열을 입력받는다. → 파라메터에 입력값이 없다면 모든 빈공백을 기준으..

Python/Analysis to Python 2022. 7. 10. 21:44

[DNN project]: 타이타닉 생존자 예측.__시작에 앞서__

[DNN project]: 타이타닉 생존자 예측 및 간단한 페이지 제작 code : Python, JS, HTML ide : Jupyter Notebook, VSC, 코랩 library : pandas, numpy, matplotlib, seaborn, torch, Flask, ... DATA Kaggle Titanic Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com Feature engineering 어떤 column이 있는지, 어떤 데이터를 유의미 하게 분류할것인가 전처리는 어떻게 진행 할것인지 모델 생성 Deep Classification Hidden Layer 활성함수 LeakyReLU default사용 OutPut Layer를 ..

개인 공간/project 2022. 7. 8. 16:56

이전 1 2 3 4 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

티스토리툴바