rubus0304 님의 블로그

[데이터 전처리 1-2주차] 강의요약 본문

강의/데이터전처리(Pandas)

[데이터 전처리 1-2주차] 강의요약

rubus0304 2024. 10. 21. 13:55

 

https://teamsparta.notion.site/d8293215e23f4d85a918d6a13245e56a

 

데이터 분석가란? | Notion

[수업 목표]

teamsparta.notion.site

 

Pandas 활용 간단히 데이터 전처리하는 방법

Matplotlib  활용 데이터 시각화하는 방법

 

설득 을 잘하기 위해 데이터를 잘 전달해야하고 이를 위한 방법 중 하나가 '시각화'

그 전 데이터를 통해 무엇을 해야할지 고민해야함.

 

데이터 전달의 목적성/  데이터 전달의 효과성 꼭 생각해야함.

 

무엇을 위해 ~이런 형태의 데이터가 필요하다는 걸 미리 정의 - 길 잃기 예방.

 

1. 목표 설정하기: 무엇을 위해 전처리와 시각화가 필요한가

2. 예상 산출물 정의하기: 데이터 처리 시각화 예상 결과물

3. As-is vs To-be 생각하기: 현재 문제와 상황 정의하고, 어떤 식으로 개선할 건지 방향성 설정

 

 

숙제1) 채용공고 5개 스크랩하고, 키워드 나열하기

자격요건/ 우대사항 

내가 되고 싶은 데이터 분석가를 채용공고에서 찾아보기/ 역할에 집중

 

직무 채용공고 키워드
프로덕트 분석가 [카카오] 데이터 프로덕트 데이터 분석가(경력)
https://www.catch.co.kr/NCS/RecruitInfoDetails/269223
데이터 탐색/ 대용량 데이터 전처리/ 통계적 방법론, ML을 활용한 모델링

데이터 사이언스/ 언어(Python) / 도구(scikit_learn, Spark MLlib/ Tensorflow, Pytorch)
Hadoop M/R / Hive/ Spark 등 빅데이터 분석 플랫폼/
유저행동로그 데이터/ 분석/모델링

유관경력 3년이상/ 수학,통계 / 데이터분석결과 서비스화 경험/ 학술적 연구자료/ 비즈니스 문제해결
비즈니스 분석가 [오늘의 집] 비즈니스 분석가 (커머스 마케팅)

https://www.linkedin.com/jobs/view/business-analyst-%EC%BB%A4%EB%A8%B8%EC%8A%A4-%EB%A7%88%EC%BC%80%ED%8C%85-at-bucketplace-ohouse-3994083784/?trackingId=fyx%2FDcTbM0bTDY4Zt0M%2Fsw%3D%3D&refId=DsX8EKkNlOxvSfo6EJ1WJA%3D%3D&original_referer=https%3A%2F%2Fkr%2Elinkedin%2Ecom%2Fjobs%2F%255B%25EA%25B2%25BD%25EB%25A0%25A5%255Dproduct-analyst-jobs%3Fposition%3D1%26pageNum%3D0&pageNum=0&position=3&originalSubdomain=kr

커머스마케팅  KPI 설계/ 트래킹/
외부유입경로/ 프로모션/ 노출/ 카테고리 / 비즈니스 활동 버드뷰 지표정리/
마트 설계/ 배치/ 대시보드 활용/ 데이터 트래킹 자동화/ 운영
팀 내 생산성 개선/
on/off site 유저 방문/ 상품 조회/ 구매 여정 탐색/ 분석 통해 전환개선기회 발굴/ 구성원 의사결정 지원/
마케팅 비용 대비 구매/ 이익 관점 비용 효율개선 기회 발굴/
팀 내 데이터 및 분석 지원/ 
Ad-hoc 팀별, 과제별 SQL 쿼리/ 대시보드 등/

가설설정-데이터추출/가공/분석 - 결과공유 (전체과정)
정형화되지 않은 환경 - 주도적 업무/ 과업 우선순위 스스로 판단 및 완수/
SQL/ 시각화 툴 (Redash, Power BI)/ 
앱/ 웹 서비스 로그 데이터 구조 이해/

이커머스/ IT 플랫폼서비스  분석가(DA,BA) 경험/
분석 툴 (Python, R 등)/ 통계이론/ 
디지털 광고매체/ 3rd party 트래킹 툴/ 
(Aribridge, Braze, GA 등) 
비즈니스 데이터분석 [쿠팡] 비즈니스 데이터분석가(경력)
https://www.linkedin.com/jobs/view/%EC%BF%A0%ED%8C%A1-business-analyst-%EB%B9%84%EC%A7%80%EB%8B%88%EC%8A%A4-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B2%BD%EB%A0%A5%EC%9E%90-at-coupang-4042094859/?position=1&pageNum=0&refId=DsX8EKkNlOxvSfo6EJ1WJA%3D%3D&trackingId=9LJotL5XilqVnDd4Qm6XvA%3D%3D&originalSubdomain=kr
Data를 통한 비즈니스 의사결정지원/
기존 프로세스 개선/ 신규지표 개발, 관리/
3년 이상 데이터분석 경험/
SQL 능숙 (코딩테스트)/
Tableau/ Power Bi 이용/ 비즈니스 인텔리전스 리포팅/
대시보딩 겨력/
멀티태스킹

이커머스/ 인터넷 서비스 업계근무 경력/
Python, R 등 Programminig language 사용/
데이터 분석가 [비즈스프링] 글로벌 온라인 마켓 데이터분석가
https://www.jobkorea.co.kr/Recruit/GI_Read/44823925?Oem_Code=C1
글로벌 마켓 성과분석/ 
광고/캠페인별 유입 성과분석/ 
Paid Traffic 확대/ 비용효율강화/
Organic Traffic 강화/
구매전환분석/ 전환율 강화
On_site MKT 성과분석/

문서작성,커뮤니케이션/ Google Analytics/ 
PowerPoint/ Tableau(우대)/ Google BigQuery(우대)

통계분석.리서치 능숙자/ 컴퓨터활용능력
데이터 분석가 [삼성전자] 글로벌 D2C 매장 데이터 분석(경력)
https://www.bzpp.co.kr/biz/businessDetailView/BR240430A00196
리테일 데이터 Framework/
KPI 상관관계 정의/ 목표
KPI 운영/ 데이터 분석
스토어 개선 Insight 발굴
온.오프 고객 데이터 분석/ 활용
닷컴/ 매장/ 인스토어 모드 / 데이터 입수/ 활용안 수립
멤버십 기반 데이터 분석/ KPI 연계 개선안/
스토어별 매출 데이터 분석/ 관리 성과 모니터링/
스토어 운영 개선안 수립/

운영전략 수립/ 데이터 분서업무 경험/
글로벌 D2C 팀 협업 원활한 영어커뮤니케이션

글로벌 브랜드 리테일 업무경험/
영어 외 다국어 능통자 및 이문화 경험 보유자
영업/법인관리 경험 보유자
데이터 분석가 [아티언스] 글로벌 마케팅 데이터분석가
https://www.wanted.co.kr/wd/239098
클라이언트의 글로벌 고객/ 결과분석 및 최적화

글로벌 기업 디지털 마케팅 데이터 마트 구축/
광고/마케팅 데이터 수집 기획/ 로직 수립
법인 커뮤니케이션/
대시보드 기획 지원

2년 이상 디지털 마케팅/
중급이상 영어실력
SQL 초급

 

 

 

숙제2) 10분 판다스 타이핑과제

 

https://dataitgirls2.github.io/10minutes2pandas/

 

판다스 10분 완성 / 10 Minutes to Pandas

Pandas 10분 완성 역자 주 : 본 자료는 10 Minutes to Pandas (하단 원문 링크 참조)의 한글 번역 자료로, 번역은 데잇걸즈2 프로그램 교육생 모두가 함께 진행하였습니다. 데잇걸즈2는 과학기술정보통신

dataitgirls2.github.io

 

(공식 링크)

https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html

 

10 minutes to pandas — pandas 2.2.3 documentation

10 minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Customarily, we import as follows: In [1]: import numpy as np In [2]: import pandas as pd Basic data structures in p

pandas.pydata.org

 

 

설치

!pip install pandas numpy matplotlib

 

** 대소문자 구별

 

Ctrl + Enter 실행

 

단축키

 

A - above (위) 이동

B - below (아래) 이동

Enter - 입력

Esc - 빠져나오기

dd - delete

X - 잘라내기

C - 복사

V - 붙여넣기

 

 

 

[2주차 강의]

 

로우 데이터들  기재된 형식이 다른 경우

 

ex) 성별 '남' 혹은 '여' 글자 공통적으로 들어감 - '남성' , '여성' 으로 하겠다.

 ex) 전화번호 '-' 여부

 

데이터 전달의 '목적성'/  데이터 전달의 '효과성'

 

Excel 대비  Python 특징

 

1. 자동화와 프로그래밍 기능

2. 대용량 데이터 처리

3. 복잡한 데이터 처리 및 분석

4. 확장성과 유연성

5. 버전 관리

 

Pandas

 

- 시리즈 (Series) 1차원 배열  컬럼 1개

- 데이터 프레임 (DataFrame) 컬럼 2개이상

각각 index