rubus0304 님의 블로그
[Python 라이브러리 2주차] 강의내용 본문
merge (가장 많이 사용)
sql join 과 제일 비슷함
공통컬럼 있을 경우 로 이름 추가시켜 바꿔줌 suffixes = ('_left', '_right')
📌 주요옵션 (파라미터 라고도 부릅니다.)
- on: 조건 컬럼이 한개인지 여러개인지
- how: 어떤 조인 방식을 사용할 것인지 (inner, outer, left, right)
- left ot / right on : 열기준 병합 시 기준으로 할 열의 양측 이름이 다르다면, 각각 어떤 열을 기준으로 할 지 지정합니다.
- sort: 병합 후 인덱스 정렬 여부(True/False)
- suffixes: 중복된 컬럼 이름의 처리
- indicator: True 로 할 경우, 마지막 열에 병합 정보를 출력해줍니다.
📌 응용
# 기본 작성구문으로, 디폴트값은 inner join
# 공통컬럼값은 합쳐져 하나의 컬럼으로 출력
merge_df = pd.merge(df2,df3)
# 위 코드와 동일한 기능입니다. on 절을 사용할 수 있어요.
merge_df = pd.merge(df2,df3, how='inner', on='Customer ID')
# 공통컬럼이 2개 이상일 때
merge_df = pd.merge(df2, df3, how='inner', on=['공통컬럼1','공통컬럼2'])
# 기준열 이름이 다를 때
merge_df = pd.merge(df2,df3, how='inner', left_on = 'Customer ID', right_on = 'user id')
# 공통컬럼을 개별로 출력하고 싶을 때
merge_df = pd.merge(df2,df3, how='inner', on='Customer ID', suffixes=('_left','_rihgt'))
Q. 조인할 때 키는 자동으로 해주나요?
- 합칠 컬럼 지정을 안해주면 같은 컬럼있는대로 전부 합쳐지는것 같아요 위의#에 붙은 설명대로라면
- 실습 파일보면 앞에 df3['Customer ID']=df3['user id'] 라는 조건을 먼저 추가해줘서 작동하는 것 같아요. 제가 이걸 못보고 공통컬럼을 지정안했더니 merge함수는 실행되지 않고 오류가 뜨네요
- merge할 때 키를 작성하지 않으면 기본적으로 두 데이터프레임에서 동일한 이름을 가진 모든 열(column)을 기준으로 병합돼요! 공통된 열이 있을 경우 그 열을 자동으로 병합의 기준으로 합쳐주는데, 공통된 열이 없으면 오류가 발생할 수 있습니다 :)
Join
왼쪽 Index 로 결합
테이블 a와 테이블 b에 같은 이름의 컬럼 (공통컬럼)이 있을 경우
lsuffix = '1', rsufficx='2' 이름을 다르게 설정해줘야함.
📌 주요옵션
- how: 어떤 조인 방식을 사용할 것인지 (inner, outer, left, right)
- lsuffix / rsuffix: 이름이 같은 컬럼이 있을 경우, 문자열 지정하여 부여
- sort: 인덱스 정렬여부(True / False)
📌 응용
# 단순 조인
df2.join(df3)
# join 방식 설정
df2.join(df3, how='right')
# join시 이름이 같은 컬럼이 있을 경우, 옵션으로 설정하여 조인 가능
# 아래 코드는 오류가 남
# df.join(df2)
df.join(df2,how='left', lsuffix='1', rsuffix='2')
# join 이후, 인덱스 정렬하기
df.join(df2,how='left', lsuffix='1', rsuffix='2', sort=True)
concat
수직결합
수평결합 가능
📌 주요옵션
- axis: 수직결합인지, 수평결합인지(axis=0: 수직결합(기본값) / axis=1: 수평결합)
- join: 어떤 조인 방식을 사용할 것인지 (inner, outer, left, right)
- join_axes : 조인 축 지정
- keys: 데이터프레임 축이름 지정
- ignore_index=True : 인덱스 재배열
- 디폴트 결합 형식: outer join (합집합)
📌 응용
# 기본 작성구문
pd.concat([df2, df3])
# 세로로 결합
pd.concat([df2, df3], axis=0, ignore_index=True, join='inner')
# 가로로 결합
pd.concat([df2, df3], axis=1, ignore_index=True, join='inner')
append
- ignore_index: 기존 인덱스를 사용할지 여부. False로 할 경우 0,1,2,..,n 이 부여
- sort : 열을 사전적으로 정렬할 지 여부
# 단순 결합, 없는 건 NaN으로 처리되고 결합
# df2 가 df 의 아래로 붙음
df.append(df2)
결합할 테이블 1개를 인자로 받는게 메서드 형태
Q. concat 할때 각 테이블 별로 원하는 칼럼만 불러와서 붙일 수 있나요?
A. pd.concat([df1[['A', 'B']], df2[['C', 'D']]], axis=1)
이런 형태로 A,B,C,D 컬럼을 붙일 수 있습니다!
피벗테이블
📌 주요옵션
- index: 인덱스(축) 으로 사용될 열
- columns: 열로 사용될 열
- values: 값으로 사용될 열
- ⭐ index 및 columns에 리스트 형태를 입력할 경우 → 멀티 인덱스 기반 피벗테이블이 생성
- ⭐ values 에 리스트를 입력 할 경우 → 각 값에 대한 테이블이 연속적으로 생성됩니다.
- aggfunc: 어떠한 계산을 할 지집계 함수 코드
합계 aggfunc =’sum’ 평균 aggfunc = ‘mean’ 표준편차 aggfunc = 'std’ 갯수 aggfunc = 'count’ 갯수(중복제거) aggfunc = 'nunique’ 최대값 aggfunc = ‘max’ 최소값 aggfunc = ‘min’ - fill_value: NaN 값을 처리하고 싶을 때 사용, fill_value=0 이 가장 많이 사용됨
- dropna: 결측치(na)삭제 여부 결정
- sort: index or columns 기준으로 정렬
📌 응용
# age 라는 축을 기준으로 카테고리별 고객id 카운트
pd.pivot_table(df2, index='Age', columns='Category', values='Customer ID', aggfunc='count')
# age, Category 라는 축을 기준으로 성별 Previous Purchases 최소, 최대값 구하기
pd.pivot_table(df2, index=['Age','Category'],columns='Gender', values='Previous Purchases', aggfunc=['min','max'])
# 성별을 축으로 하고, 사이즈, 나이별 고객id 고유하게 카운트
pd.pivot_table(df2, index=['Gender'],columns=['Size','Age'], values='Customer ID', aggfunc='nunique')
values 표 안에 값, aggfunc 함수는 count로 -> count (customer_id) 로 표 안에 들어감
그 외 함수
lambda
개념: 람다 함수는 이름이 없는 함수로, 일반적으로 함수를 한 번만 사용하거나 함수를 인자로 전달해야 하는 경우에 매우 유용하게 사용됩니다.
📌 표현식
# 1.기본 표현구문
lambda 매개변수 : 표현식
--------------------------------------------------------------------
#2.이해하기
들어온 값에 2를 곱해서 반환한다고 하면 lambda x : x * 2
--------------------------------------------------------------------
#3.기존 함수 작성방식과 비교하기
#두 수를 더하는 함수 - 알고리즘형식
def plus(a,b):
return a+b
plus(10,40)
>> 50
#두 수를 더하는 함수 - 람다 형식
(lambda a,b: a + b)(10, 40)
(이름 없는 함수 두 개 a, b) : 이걸 해줘)(a에 들어갈 숫자, b에 들어갈 숫자)
# lambda 함수를 이용한 홀수 출력하기
mylist = [1, 2, 3, 4, 5]
mylist2 = list(filter(lambda x: x % 2 == 1, mylist))
print(mylist2)
-> 쟤네인 경우 필터해서 mylist2에 넣어라
# lambda 함수를 이용한 정렬
mylist = ['apple', 'banana', 'cherry']
mylist2 = sorted(mylist, key=lambda x: len(x))
print(mylist2)
split
개념: 하나의 값으로 묶여있는 데이터를 문자열 기준으로 나눌 때 사용.
특정 문자나 패턴으로 나눌 수 있습니다.
📌 주요옵션
- sep: 문자열을 나눌 구분자 기입
- maxsplit: 최대 split 횟수 (디폴트: 모두 다 나눔)
📌 응용
# 예시 문자열 선언
s = "aa.bb.cc.dd.ee.ff.gg"
# '.' 구분자를 기준으로 데이터를 나눔
# 아래 두 코드 결과 동일
s.split('.')
s.split(sep='.')
# '.' 구분자를 기준으로 데이터를 나누고 컬럼으로 받음
# lambda 함수와 결합하여 사용하는 경우
# 7번 반복, a 를 컬럼 구분자로 받아주고, format 함수를 통해 a0, a1, a2 ... 로 표기
# lambda 함수를 통해 '.' 로 구분. 단, len(x.split('.')), 즉 7 보다 i 가 작을 때 수행
# 중요
for i in range(7):
df2["a{}".format(i)] = df2['x'].apply(lambda x: x.split('.')[i] if len(x.split('.'))>i else None)
text 가 .으로 나눴을 대 그 길이만큼만 for 구문으로 반복한다. 즉
"a{}".format(i) -> a1. a2. a3 . .. .
rrule
📌 주요옵션
- freq : 반복 주기를 나타내는 파라미터로, SECONDLY, MINUTELY, HOURLY, DAILY, WEEKLY, MONTHLY, YEARLY
- dtstart: 반복이 시작하는 날짜와 시간을 나타냅니다.
- interval: 주기적으로 반복되는 간격을 나타냅니다.
- count: 생성할 날짜의 최대 수를 나타냅니다.
- until: 반복이 끝나는 날짜와 시간을 나타냅니다.
📌 개념: dateutil 라이브러리에 속한 함수로, 날짜 데이터를 원하는 기준에 따라 output 으로 가져올 수 있습니다.
📌 응용
# 라이브러리 불러오기
from datetime import datetime
from dateutil.rrule import rrule, DAILY, TU
# 시작 날짜, 종료날짜
start_date = datetime(2024, 2, 1)
end_date = datetime(2024, 3, 1)
# 2024-02-01 부터 2024-03-01 까지 strf 사용하여 원하는 데이터 형식으로 출력.
weekly_rule = rrule(DAILY, dtstart=start_date, until=end_date)
for date in weekly_rule:
print(date.strftime('%Y-%m-%d'))
# 빈 리스트 생성 후 날짜를 담아주기
a=[]
for date in weekly_rule:
a.append(date.strftime('%Y-%m-%d'))
# 2023-02-01 부터 2023-03-01 까지 strf 사용하여 원하는 데이터 형식으로 출력
weekly_rule = rrule(DAILY, dtstart=start_date, until=end_date)
# 데이터프레임에서 특정 날짜기간에 해당하는 데이터만 슬라이싱 하기
# 빈 리스트 생성 후 날짜를 담아주기
a=[]
for date in weekly_rule:
a.append(date.strftime('%Y-%m-%d'))
# df3 에 있는 날짜 데이터는 string
# string -> datetimd -> string 의 형태로 변환
# 위에서 받은 리스트에 해당하는 데이터만 필터링하기 위함
df3['Time stamp2'] = pd.to_datetime(df3['Time stamp']).dt.strftime('%Y-%m-%d')
mask =(df3['Time stamp2'].isin(a))
df3[mask]
strf (python) = dataformat (Sql) 똑같음
'Data Analyst > 라이브세션' 카테고리의 다른 글
[라이브세션 라이브러리 4주차] 강의내용 (0) | 2024.10.28 |
---|---|
[라이브세션] Pandas 실습 (0) | 2024.10.25 |
[Python 라이브러리 1주차] 강의 내용 (0) | 2024.10.21 |
[라이브세션] SQL 마지막 윈도우 함수 (0) | 2024.10.16 |
[라이브세션 ⑥] SQL Join 복습 (0) | 2024.10.14 |