빅분기(8)
-
[빅분기 실기] 판다스 (Pandas) 데이터 프레임 합치기
1. 단순 병합데이터 프레임을 위-아래 또는 왼쪽-오른쪽으로 연결할 때 concat()을 사용한다.다음과 같이 데이터를 입력한다. import pandas as pdappetizer = pd.DataFrame({ 'Menu' : ['Salad', 'Soup', 'Bread'], 'Price' : [5000, 3000, 2000]})main = pd.DataFrame({ 'Menu' : ['Steak', 'Pasta', 'Chicken'], 'Price' : [15000, 12000, 10000]})print(appetizer)print(main) concat()은 기본적으로 위-아래로 합친다.합쳤을 때 기존 데이터에서 갖고 있던 인덱스 번호를 유지한다.인덱스 번호를 새롭게 설정하려면 ignore_..
2024.11.16 -
[빅분기 실기] 판다스 (pandas) 시계열 데이터 (datetime, Timedelta)
1. 시계열 데이터 (datetime)날짜와 시간 관련 데이터는 시간의 순서에 따른 측정값, 기간 설정 등의 다양한 분석과 작업에 사용된다. 1-1. 날짜와 시간 데이터일반적으로 날짜는 하이픈 (-)을 사용해 연도-월-일 형태로 만든다.시간은 콜론 (:)을 사용해 시간:분:초 형태로 만든다. 다음과 같이 데이터를 생성한다. import pandas as pddata = { 'Date1' : ['2024-02-17', '2024-02-18', '2024-02-19', '2024-02-20'], 'Date2' : ['2024:02:17', '2024:02:18', '2024:02:19', '2024:02:20'], 'Date3' : ['24/02/17', '24/02/18', '24/02/19', '2..
2024.11.10 -
[빅분기 실기] 판다스 (pandas) 그룹핑
1. 그룹핑 (Grouping)데이터를 다양한 방식으로 집계하고 분석하는 데는 groupby()를 사용한다.특정 컬럼을 기준으로 여러 그룹을 나누고 각 그룹에 대한 합계, 평균, 최대, 최소, 빈도 등을 구할 수 있다. 데이터를 불러온다. import pandas as pddf = pd.read_csv('cafe4.csv') # https://kdh9797-devwiki.tistory.com/85df.head() 1-1. 그룹 기준 1개원산지를 기준으로 평균값을 계산해 보자. df.groupby('원산지').mean(numeric_only=True) 원산지를 기준으로 그룹이 만들어진다.수치형 데이터인 '가격', '칼로리', '이벤트가'의 평균을 확인할 수 있다. 1-2. 집계 연산mean()평균sum..
2024.11.09 -
[빅분기 실기] 판다스 (pandas) 필터링, 결측치 처리
데이터를 불러온다. import pandas as pddf = pd.read_csv('cafe2.csv') # https://kdh9797-devwiki.tistory.com/83 cafe2 만들기 참고df 1. 필터링1-1. 1개 조건 필터링특정 컬럼에 조건식을 적용하면 True/False가 반환된다.조건에 만족하면 True, 만족하지 않으면 False이다.'칼로리' 컬럼의 각 값이 50보다 작은 지를 나타내는 코드이다. df['칼로리'] Boolean 결과를 데이터프레임의 대괄호 안에 넣으면 True로 표시된 행들만 선택된다.df[df['칼로리'] 1-2. NOT 연산자'~' 연산자는 조건의 반대를 필터링하는 데 사용한다.True를 False로 False를 True로 변경한다. df[~(df..
2024.11.09 -
[빅분기 실기] 판다스 (pandas) 데이터 추가, 변경. 정렬
1. 데이터 추가 및 변경1-1. 결측치(NaN) 대입import pandas as pddf = pd.read_csv('cafe.csv') # cafa.csv 만드는 방법 참고 https://kdh9797-devwiki.tistory.com/77df.head() '원산지'라는 새로운 컬럼을 만들고 데이터는 '값없음'을 의미하는 NaN (Not a Number)을 대입한다.NaN (결측치) 이 있는 데이터를 만든다. NaN은 numpy 라이브러리를 통해 만들 수 있다. ※ 넘파이 (numpy)파이썬 라이브러리로 빠르게 수치 연산하는 것이 특징이다.연산량이 많은 딥러닝에서 주로 사용한다. 결측치가 있는 데이터셋을 만들기 위해 넘파이 라이브러리를 불러오고, 원산지 컬럼에 np.nan을 대입한다. impor..
2024.11.09 -
[빅분기] 판다스 (pandas) 인덱싱. 슬라이싱 (loc, iloc)
1. loc1-1. 인덱싱loc는 location의 약자로 인덱스명 또는 컬럼명을 통해 데이터를 접근한다.df.loc [인덱스 명]을 통해 해당 인덱스 데이터에 접근할 수 있다. import pandas as pddf = pd.read_csv('cafe.csv') # cafa.csv 만드는 방법 참고 https://kdh9797-devwiki.tistory.com/77df.head() df.loc[0] 특정 행과 특정 열의 교차점에 있는 단일 값을 출력할 때는 콤마로 구분해 찾을 수 있다. df.loc[1, "가격"] 1-2. 슬라이싱loc [행 범위 또는 특정 행, 컬럼 (열)의 범위 또는 특정 컬럼]을 활용한다.범위는 '시작 인덱스 : 끝 인덱스'로 구간을 나타낸다.시작 인덱스를 생략하면 처음..
2024.11.06