rubus0304 님의 블로그
[Python 라이브러리 1주차] 강의 내용 본문
SQL : Select from 으로 묶여 있음 -> 절차지향 언어
(단점) - trouble shooting 시 컴파일 오래걸림 (통으로 하니까)/ 시각화 기능 부재
Python : 한 줄 씩 독립적으로 실행 후 실행 -> 객체지향 언어
(SQL 단점 보완) - 순차적으로 하나하나 실행되므로 시간단축/ 수정 용이/ library 활용가능 활용 쉬움 (알고리즘은 예외)
라이브러리 : 함수를 불러올 수 있음
Pandas 라이브러리: SQL, Json, HTML 형식이어도 행, 열 테이블로 일괄 변환
ex) Numpy: (숫자 관련) 기반 호환 좋음
Series: 1컬럼/
Dataframe: 1개 이상 컬럼 (표 형태)
Jupyter 활용 방법
Shift + Enter : 실행
m : 파란색 (Tet로 변환)
ESC : 바깥으로 나오기
dd : delete 등
나머지는 VS code 와 유사.
- display 함수는 기본이라 . 안 쓰고 바로 display( ) 괄호 씀.
# 는 주석 쓸 수 있음
- len (df) 함수 : 몇 줄 있는지 파악가능.
- .columns : 밑으로 좌라락
- .info ( )
- .T : (Transformation) 행/열 전환
[ 컬럼 가져오기 3가지 방법 ] - Series (컬럼 1개)
1. df.
2. df['컬럼']
3. df.컬럼[:4] 5번째 있는 컬럼 가져오기 (Python은 0부터 시작)
[여러 개 컬럼 가져오는 방법] - Dataframe (컬럼 여러개)
1.df[['컬럼1','컬럼2','컬럼3']]
2.df.iloc[:,[4,7]]
[행 자리, 컬럼 자리]
* iloc : 모든 행 가져와라. 근데 이제 4번째 행과 7번째 컬럼을 가져와.
[특정 컬럼 버리기]
df.dropna ( ) = null 값 있는 친구 다 버리기.
1) NAN 포함 조건 부합 값
조건 맞는 데이터 (조건 만족 - 정상출력 / 아닌 행 NAN 출력)
df2.where(df2['Age'] > 50)
2) 조건에 부합한 값만 (Mask) - NAN 제외 (mask = ( ) )
mask (아무 이름 가능) = ((df2['Age'] > 50) & (df2['Gender']=='NAN'))
df2[mask]
[그룹화 - Groupby]
group by('컬럼')['컬럼'].count( )
ex)
df2.groupby('Gender')['Customer ID'].count( )
ex) 2개 이상
df2.groupby(['컬럼1','컬럼2'])['컬럼'].count( )
[중복값 없애기 - .nunique( )]
df2.groupby('컬럼')['컬럼'].nunique( )
ex) ('location')['age']
[오름차순 - sort_values(asending = True)]
df2.groupby('컬럼')['컬럼'].count( ).sort_values(ascending = true)
cf. 내림차순 .sort_values(ascending = False
'Data Analyst > 라이브세션' 카테고리의 다른 글
[라이브세션] Pandas 실습 (0) | 2024.10.25 |
---|---|
[Python 라이브러리 2주차] 강의내용 (1) | 2024.10.23 |
[라이브세션] SQL 마지막 윈도우 함수 (0) | 2024.10.16 |
[라이브세션 ⑥] SQL Join 복습 (0) | 2024.10.14 |
라이브세션 ③/⑤ SQL과제 (0) | 2024.10.11 |