목록Data Analyst/라이브세션 (24)
rubus0304 님의 블로그
라이브는 자동으로 수정도 연동추출은 추출시간도 정해줘야함. (Refreshed schedule) 이중축 하나로 합쳐짐
[4기] 통계 + 머신러닝 개인 과제 [4기] 통계 + 머신러닝 개인 과제 | Notion제출 마감 : 2024. 12. 11 (수) 15:00 까지teamsparta.notion.site 필수 1. 기초통계statistics csv 파일을 읽고, 성별 Review Rating 에 대한 평균과 중앙값을 구해주세요. 결과는 소수점 둘째자리까지 표현해주세요.그리고 이에 대한 해석을 간략하게 설명해주세요.import pandas as pd import numpy as np import scipy.stats as statsfrom datetime import datetime, timedelta import warningswarnings.filterwarnings('ignore')df=pd.read_csv("s..
[메트릭] 비즈니스 메트릭 기초 [메트릭] 비즈니스 메트릭 기초 | Notion[강의 자료 PDF]teamsparta.notion.site 1. AARRR Acquisition (유입) : 제품을 처음 발견하고 접근하는 경로를 이해하는 데 중점 Metric:신규 사용자수: 특정 기간 동안 유입된 신규 사용자의 총 수회원가입 전환율 (Sign-up Conversion Rate): 앱 방문자가 실제로 회원가입을 완료하는 비율고객 획득 비용 (CAC, Customer Acquisition Cost): 신규 고객 한 명을 유치하기 위해 지출한 평균 비용Acquisition 전략:유입 채널 최적화 (네이버, 구글 등)회원가입 UI A/B 테스트컨텐츠 마케팅Activation (활성화) : 첫 핵심 행동을 통해..
[Python] 머신러닝 특강 - 군집 분석 pip install yellowbrick 이거 해야함!! Z-score 평균으로부터 얼마나 떨어져Z-Score : 0 해당 데이터는 평균과 같음을 의미합니다. (=평균에서 떨어진 거리가 0) IQR 4분위로 나눈데이터의 25% 지점()과 75% 지점() 사이의 범위()를 사용합니다. 이를 벗어나는 값들은 모두 이상치로 간주 ------ 이 아래로 cluster 해보기 ------Isolation Forest -- 프로젝트에서 사용해보기 DBScan 밀도기반 표준화: 실험하고 더 잘 나오는 거로.... minmax scale 자주 안 사용모든 데이터 0과 1사이 배치 (표준화보다 정규화에 더 가까움) - 데이터의 분포를 가져갈 수 없기 때문 st..
[Python] 머신러닝 빌드업 - 2회차 [Python] 머신러닝 빌드업 - 2회차 | Notion[강의자료 PDF]teamsparta.notion.site 1) 지도학습문제와 정답을 모두 알려주고 학습시키는 방법독립 변수(특성, Feature, X data)와 종속 변수(타겟, Label, Y data)의 세트로 구성된 데이터셋을 이용해 모델을 학습합니다.Feature가 주어졌을 때 적절한 답변을 모델이 내놓는 것이 목적입니다.타겟의 성격에 따라 크게 두 가지 문제로 분류 가능합니다.예측 (Prediction)평점, 시간, 가격, 변동률 등 타겟이 연속형(Continuous)인 경우예시 1) 머니볼2000년대 초반에 낮은 예산으로 운영되던 오클랜드 애슬레틱스의 단장 빌리 빈은 데이터를 기반으로 ..
[Python] 머신러닝 빌드업 - 1회차 1) 머신 러닝에 대한 정의 머신 러닝은 데이터를 활용하여 작업의 성능을 향상하기 위해 모델(머신)을 학습해나가는 과정 딥 러닝 → 머신 러닝 → AI 순으로 그 개념의 범위가 넓어집니다.AI: 마치 인간처럼 학습 및 추론을 할 수 있도록 만들어진 프로그램머신 러닝: 데이터를 활용해 명시적으로 프로그래밍되지 않고도 학습할 수 있는 알고리즘딥 러닝: 머신 러닝의 종류 중 하나로 인공 신경망을 이용해 거대한 데이터셋을 학습하는 방법 2) 빅데이터와 머신 러닝빅데이터란?말 그대로 과거와는 비교가 안되는 엄청난 규모의 데이터를 칭하는 용어3) 통계학과 머신 러닝통계학: 표본에서 모집단의 특성을 추론하는 것이 중점입니다.내가 수집한 데이터가 모집단을 얼마나 잘 반영하..
통계와 머신러닝 01. 통계와 머신러닝의 관계성 두가지의 방법론은 상호보완적이라고 이해해주시면 좋겠습니다. 🙂통계적 가설검정이 머신러닝을 보완하는 경우머신러닝 모델의 피처 선택(컬럼 선택)에서 유의미한 변수를 찾기 위해 통계적 가설검정 사용데이터 분포, 이상치 처리 등 데이터 전처리에 유용한 통계적 기법을 제공머신러닝이 가설검정을 보완하는 경우비선형 데이터의 관계를 처리링하거나 대규모 데이터에서 가설 검정의 한계를 보완예를 들어, 통계적 가설검정은 변수 간 독립성을 가정하고 진행되지만, 머신러닝은 이러한 제약 없이 상관 및 연관성을 탐지합니다.두가지 방법론의 융합(심화 프로젝트에서 해야 하는 부분)통계적 가설검정을 사용해 데이터 탐색 및 초기 분석을 수행한 후, 머신러닝을 통해 예측 성능을 극대..
보호되어 있는 글입니다.
[통계학] 통계야 놀자 - 5회차 그렇다면 만약 게임시간이 1000시간이면, 전기세는 얼마일까요? 우리가 가진 데이터셋에 해당 값이 없을 때, 이를 예측하기 위해 ‘회귀분석’의 개념이 도입됩니다. 이러한 예측을 위해 위 그래프에서 붉은색으로 보이는 ‘추세선’ 이 필요한데요!회귀분석의 목적은 이 ‘추세선’을 찾는 것이 목적이 됩니다. 추세선 = “우리가 이미 가지고 있는 데이터들을 가장 잘 설명해주는 선” 을 의미합니다. 추세선은 y = a+bx (방정식)으로 표현됩니다. x: 게임시간(독립변수) y: 전기세(종속변수) a: 절편(x 가 0일때 y값) b: 기울기 이렇게 추세선을 파악함으로써, 게임시간이 1000시간과 추세선이 만나는 점을 통해 종속변수를예측할 수 있게 되는 것입니다. 이러한 특징을 ..
[통계학] 통계야 놀자 - 3회차 [통계학] 통계야 놀자 - 3회차 | Notion[강의자료 PDF]teamsparta.notion.site ROI 투자대비 수익 A/B 테스트를A/B Dashboard - 그로스 마케터파이썬 - 데이터븐석가 신뢰수준 대신 유의수준을 지정. (파이썬이 먼저 지정) 유의수준 - 중심극한정리 복습 검정통계량 T 검정 - 모집단 크기/ 분산 알 수 알 수 있으면 Z검정/ 분산 알 수 없으면 T 검정 🚩 p-value: 어떠 사건이 우연히 발생할 확률 (Probability Value : 확률) 통계적으로 아무리 정답이어도, 데이터분석가는 의미가 있지만 데이터를 뜯어봐야함.가설을 세우고 실제로 데이터가 어떻게 생겼는지 봐야함. 실습 # 라이브러리 호출 import ..