EDA2 [빅분기 실기] 머신러닝 분류 1. 문제 정의미국의 인구조사 데이터 (1994)를 바탕으로 만들어진 데이터이다.데이터에서 각 사람의 소득을 예측한다.나이, 결혼 여부, 직종 등의 컬럼이 있다. 2. 라이브러리 및 데이터 불러오기import pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv') train test 3. 탐색적 데이터 분석 (EDA)데이터 크기, 자료형, 기초 통계 등 데이터가 어떻게 구성되었는지 파악하고 결측치, 이상치 등을 발견한다. 3-1. 데이터 샘플데이터를 확인하면 id, age, workclass,... , income 컬럼과 데이터를 확인할 수 있다.수치형 (Numerical) 변수와 범주형 (categorical) 변수가 함.. 2024. 11. 23. [빅분기] 판다스 (pandas) - 탐색적 데이터 분석 (EDA). 자료형 변환. 컬럼 추가. 데이터 삭제 1. 탐색적 데이터 분석 (Exploratory Data Analysis, EDA)데이터를 탐색하고 이해하기 위해 수행한다.일반적으로 데이터는 한눈에 관찰할 수 없다. 눈으로 식별할 수 있는 크기라도 시간이 많이 소요된다.따라서 탐색적 데이터 분석 과정을 통해 데이터를 다양한 각도에서 관찰하고 이해해야 한다. 1-1. 데이터 프레임 샘플 확인head(N)은 데이터프레임의 상위 N개의 행을 반환한다.N은 자연수이고 기본값은 5이다. import pandas as pddf = pd.read_csv('cafe.csv') # cafa.csv 만드는 방법 참고 https://kdh9797-devwiki.tistory.com/77df.head() df.head(2) tail은 데이터프레임의 하위 N개의 행을 .. 2024. 11. 2. 이전 1 다음