rubus0304 님의 블로그

[라떼톡] 본문

Data Analyst/daily

[라떼톡]

rubus0304 2024. 12. 30. 15:40

<리차트 튜터님>

커리어

 

1. 수많은 조력자들 찾기 

2. 나만의 장점 찾아 뾰족하게 만들기 

3. 인생 계획하기

4. 매일 성장하기

 

감독

- 그 역할을 잘 할 수 있는 사람을 캐치해서 그들을 잘 활용하는 것. 나누면서 더 성장

- WMS 원칙 (쓰고, 온라인 프로덕트 만들면서, 나누기)

 

유한한 시간 잘 활용해서 매일 성장할 수 있게 연구해서 하루 보내기

 

 

 

 

 

 

 

 

 

 

 

 

 


 

<정욱 튜터님>

공모전, 프로젝트

 

1. 공모전

 

핀테크

대안데이터: 다른정보로 신용도 평가 가능. (데이터분석, AI 기술 필요)

마이데이터: 개인이 자신의 데이터를 직접 관리하고 통제할 수 있는 개념, 지원하는 서비스 체계

SNS, 해시태그, 자연어 처리 패키지(Huggingface)

 

기업 공모전 참여. - 네트워크, 명함, 실제 데이터 제공기회.

 

 

 

 

 

 

 

 

 

 

2. 추천시스템 프로젝트

- 고려대 대학원 학생 데이터와 장학금 수혜 데이터 활용하여 추천시스템 구축

(추천 알고리즘에 의해 추천되는) - 자연어 처리, 컴퓨터 비전 (전공)

 

ERP - 자동분류 추천 시스템

챗봇

추천시스템 - 수요 많은데, 공급 적음 (비전공자 가능)

 

인코딩 ( 범주형 데이터 )

Hierarchical clustering 

덴드로그램

 

 

 

 

 

 

 

컨텐츠 based 시스템 / A랑 비슷한 장학금 수혜경험, 비슷한 B,C도 추천.

 

정형화된 추천시스템 구현 (클러스터링, PCL - 고도화된 모델) 협업 - 클러스터링 만으로 부족, 그래픽 딥러닝  공부계기

추천시스템 수요 높다.

 

 

 

3. 이상치 탐지 프로젝트

- 게임, 금융  (이상거래 탐지)

 

- 예상되는 것과는 다른 데이터나 개체를 탐지하는 Task (비지도학습 더 많이 사용)

- 보통 기업에서 다룰 때 불량데이터 찾기 쉽지 않음..

-> 애초에 이상데이터가 많으면 망하기 때문 따라서, 대부분 정상데이터가 많음

-> 일반적인 데이터 탐지 방법으론 데이터 찾기 어려움.

-> 비지도 학습 방식으로 이상데이터 탐지 (대부분 데이터 특징, 패턴 분류해서 그것과 다른 것 탐지)  - 라벨이필요 없음 대신, 일부 이상인데 정상으로 들어가는 내용있음. (그 부분은 어쩔 수 없음)

 

 

시계열 데이터로 탐지

 

 

 

 

 

 

 

 

정답값이 없는 경우 필연적으로 비지도학습 씀

AI결과만 중요한 것이 아니라 왜 그런 결과가 나오게 되었는지에 대한 해석이 중요!

 

 

 

 


 

< 강민구 튜터님 > 텍스트 데이터

 

1. 텍스트 데이터로 찾는 인사이트

 

- 이상치 탐지 (공정 데이터) - 불량 미리예측

- 텍스트 데이터 (서비스 로그분석 함께 ) - 소프트 엔지니어 (개발자) 데이터분석 뿐만 아니라 백앤드 개발 함께 진행

 

- 텍스트 분석이란,

   : 사내 임직원들이 사용하는 네이버같은 포털사이트 (내부 직원들끼리만 공유하여 질의응답 게시판 사진/동영상 등)

 

-메타 모스/ 임직원 대상 챗봇

- 플랫폼 내 정보는 사용자들이 생성하고 소비하는 대부분 텍스트로 이루어져있음. ( 리뷰 ) 분석

새로운 기능 추천하고 서비스 고도화

 

 

 

 

 

 

 

2. 프로젝트 사례

 

- 콘텐츠 추천 이미지 (수요가 많고, 빠지는 곳)

- Collaborative Filtering  모델 활용!!  성능 좋았음 - (ex 넷플릭스 공모전 사례 - 추천 서비스)

 

(컨텐츠 기반) / (학생 예측기반 - 집중도있게 수업하는지 예상성적 이대로 하면 합격, 불합격 - 데이터분석, 파이프라인설계, 라이브데이터 (준수튜터님께 부탁) - 연결)- 대시보드에 데이터베이스 연결해서 파이프라인..

 

 

- 안 좋은 경우: 영상을 추천해준다 - 좋음 - 취향 비슷한 사람 A,B / 관심 가지고 좋아할 가능성 높음

- 이것과 비슷한 것 파고들고 찾아보고싶을 땐 - 추천 결과: 정신 사나움 - 하나에 대해 딥다이브하기엔 안 좋을 수 있음 (저녁추천 메뉴: 다양하게 추천해주는 거면 좋음)

- 정답이 아닌 경우도 있음.

 

 

로그 데이터 분석 : 검색 고도화

- 머신러닝과 통계방법론 활용 검색 데이터 정제 작업 진행

- 정제된 로그 데이터 활용해 서비스 활성화 지표 추출하고 추이 분석

- 지표 기반으로 사용자를 클러스터링하고, 검색 사용 유형별 특성 분석

 

맛집 추천 - 검색 블로그에 대한 컨텐츠가 궁금했다는 것 파악 - 검색 전환

사용자 기반 클러스터링 - 사용자별 검색활용율 - 일 평균 검색 페이지 - 검색지표로 활용 (지표 좋다고 알려주는 사람 아무도 없음) - 어떤 서비스들은 필요로하는지 확인!

 

 

챗봇 사용자 분석을 위한 통계 대시보드 

PowerBI (태블로와 비슷) - 대시보드 작성.

챗봇 기능별 WAU, Retention 등의 활성화 지표를 선정 및 추천하고 모니터링 함.

 

 

데이터 분야보다 데이터 타입 (텍스트 데이터, 거래, 이미지 데이터 등)

자신만의 확실한 강점 한 달동안 완벽히 개발해놓기

취업했다고 끝나는게 아님 꾸준히!! 공부 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

<준수 튜터님>  금융, 이커머스

 

1. 금융

컨설팅

국내 금융권 빅데이터 프로젝트 수행 사례

컨설팅업체 - 클라이언트에 제안 (분석역량) - 과제 발제 (니즈) -  3-10명 파트너, 매니저들 분석과제 수행 

 

1) 고객 세분화

 

 

고객 5년 이내, 2년 이내, 1년 이내 고객 클러스터링 - EDA 패턴 분석 통한 가설설정.

쓸만한 가치인지 파악

가설 설정 - 인구 통계 정보/ 금융활동 구분하는 최소 분류 기준 정의

 

 

 

 

 

 

 

2) 개인 수신 상품 추천

 

 

상품에 대한 특성

 

변수의 중요도 어떻게 바뀌는지, 왜 바뀌는지 설명 방법론이 되게 많아 어려움. 머신러닝 한계점

머신러닝 처음에 안 쓰고 롤베이스 로 씀  (스코어 알고리즘)

추천 스코어 - 적립식 상품/ 거치식 상품/ 보헙상품  (타겟 마케팅, 고객 Seg 연동, 적합한 상품 추천)

 

 

이후에 어떻게 됬는지 파악하기 어려움 (컨설팅 회사는 그 뒤에 나가서 어떻게 됬는지 뒤 결과는 모르는 한계)

 

3) 개인 여신 상품 추천

- 롤베이스 매트릭 추천 / 대출 상품 대상 모델링 

 

 

 

 

 

 

X값도 윈도우를 한 칸 씩 옮겨야함. 다음 달 (머신러닝 오퍼레이션)

 

 

 

4) 기업 여신

- 롤베이스 둘다 합해서

 

 

2. 이커머스

프로덕트 분석 

 

이커머스- Pricing

 

회사입장 : 돈 많이 벌고, AHA 모먼트 AARRR 지표 등 핵심 액션지표. 최대한 많이 하게끔, 최적화하려는 분석 많이 하게됨.

 

CX 부서: 앱, 프로덕트 페이지 변화를 줘서 사람들이 더 사게끔, 가입 유도하게끔 증대.

상품 눌렀을 때, 상품명, 사진, 하트(찜하기), 선물하기, 구매하기, 정기배송 (우유 등),

 

구매하기 - 장바구니/ 바로구매 - 수량 정하기, 카트 페이지 구매하기 눌러야 결제수단 정해짐 

 

 

 

 

 

 

 

- 상품 페이지 분석 (로그 쌓은 걸 분석)

- 주요 행동별 고객 여정 분석 (Funnel)

- A/B 테스트 (실험) -   원래 CX - 버튼 없어진 버전 CX (구매- 전환율 매트릭 보면서 차이 발생하는지 측정 ) - 연령대 별 결과좋았던 연령대있으면 주로 그 연령대에 CX 보이게 

 

선물하기, 찜하기 사진 에 넣어도 크게 변화가 없었다.

대신 바로 장바구니 담기 밖으로 꺼냄 , 구매하기는 바로 결제로 넘어감.

한 개씩 한 개씩 옮겨서 성과를 보게 됨

 

 

 

 

 

단순히 UX만 바꿨는데, 200억 더 벌어드림

 

CTA ( 단어 간단하게)

텍스트 - 스캔하기 쉬운 형식 (버튼 안에 심플하게 - 이해하기 쉽게) - 그 제품과 어떤 상호작용 명확

구매하기 가장 중요하므로 방해할 수 있는 요소 제거 (5만원이상 - 밀어서 결제하기 끝)

가치가 낮은 콘텐츠는 가치가 높은 영역에 배치하지 않도록 주의

 

 

 

 

가드레일이 안 좋아지면 2-3주 정도 더 실험 돌림 -  novelty effect 라는게 존재해서

 

프로덕트 분석가가 직접 소프트웨어 개발도 하기도 하시나요? -  개발은 개발자쪽에서 해요!

 

 

라떼톡 세션

 

라떼톡 세션 | Notion

Made with Notion, the all-in-one connected workspace with publishing capabilities.

teamsparta.notion.site

 

 

A.B 테스트

 

OSF | The Upworthy Research Archive

 

The Upworthy Research Archive

A Time Series of Experiments in U.S. Media Hosted on the Open Science Framework

osf.io

 

ㅇ2월부터

 

https://dacon.io/competitions/official/236222/overview/description

 

이커머스 고객 세분화 분석 아이디어 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

 

 

 

 

https://dacon.io/competitions/official/236156/codeshare

 

온라인 채널 제품 판매량 예측 AI 오프라인 해커톤 - DACON

조회수  2,352 댓글수  4 일 년 전

dacon.io

 

 

분야 자체가 좀 생소한 것 - agreculture tech -  지원 수가 적어서 수상하기 좋음!!  (전략적으로)  - 수상목적

 

 

결과 중요 - 데이콘 (성능 계산 제출) - 경쟁 치열

아이디어, 발표 중요 -  가능성 더 좋음!! 선호!!

 

 

- 준수 튜터님 : 금융, 비전공자 비율

- 텍스트 : 도메인 () 커리어 관련 

'Data Analyst > daily' 카테고리의 다른 글

[프로젝트 준비기간2]  (0) 2025.01.02
[프로젝트 준비]  (0) 2024.12.31
[프로젝트 궁금증 발표회]  (0) 2024.12.27
[프로젝트 7일차]  (2) 2024.12.26
[프로젝트 6일차]  (0) 2024.12.24