목록분류 전체보기 (146)
rubus0304 님의 블로그
[Python] 머신러닝 특강 - 군집 분석 pip install yellowbrick 이거 해야함!! Z-score 평균으로부터 얼마나 떨어져Z-Score : 0 해당 데이터는 평균과 같음을 의미합니다. (=평균에서 떨어진 거리가 0) IQR 4분위로 나눈데이터의 25% 지점()과 75% 지점() 사이의 범위()를 사용합니다. 이를 벗어나는 값들은 모두 이상치로 간주 ------ 이 아래로 cluster 해보기 ------Isolation Forest -- 프로젝트에서 사용해보기 DBScan 밀도기반 표준화: 실험하고 더 잘 나오는 거로.... minmax scale 자주 안 사용모든 데이터 0과 1사이 배치 (표준화보다 정규화에 더 가까움) - 데이터의 분포를 가져갈 수 없기 때문 st..
https://teamsparta.notion.site/4-883fc70db88e4263b706ea52f2e150c9 4. 딥러닝 | Notion1. 학습목표teamsparta.notion.site 2022년 12월 ChatGPT가 등장한 이래로 딥러닝에 대한 관심에 더욱 가속화 되었어요. 도대체 딥러닝이 뭐길래 그렇게 온 세상을 바꿀 것 처럼 얘기 할까요? 머신러닝에서 배운 기본을 바탕으로 딥러닝에 대해서 알아 봅시다.
https://yozm.wishket.com/magazine/detail/1070/ 양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가? | 요즘IT양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로yozm.wishket.com 요약 : 양질의 데이터를 판별하는 5가지 방법데이터의 수가 충분히 많음.데이터 자체의 오류가 적음.관계형데이터베이스형식을 잘 지킴.수치형 데이터 형식을 많이 보유.활용목적에 적합함.-보편적 특징일 뿐 모든 양질의 데이터가 철저히 지키는 것은 아니고, 낮은 품질의 데이터라고해서 안 갖춘 것도 아님. 다만, 판별하는데 도움.1)데이터의 양이..
평균은 이상치에 취약. import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt iris_df = sns.load_dataset('iris')iris_df.head(3) iris_df.info() sns.scatterplot(data = iris_df, x = 'sepal_length', y = 'sepal_width') sns.scatterplot(data = iris_df, x = 'sepal_length', y = 'sepal_width', hue = 'species') iris_df2 = iris_df[['sepal_length','sepal_width','petal_length','petal_width..
import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import LabelEncoderfrom sklearn.tree import DecisionTreeClassifier,plot_treetitaninc_df = pd.read_csv('C:/Users/82106/Desktop/데이터분석/강의/6.파이썬/4.머신러닝/ML/titanic/train.csv')titaninc_df.info() #Pclass: LabelEncoder#Sex: LabelEncoder#Age: 결측치-> 평균으로 대치하고 le = LabelEncoder()titaninc_df['Sex'] = le.fit_transform(titaninc_df[..
https://teamsparta.notion.site/1-8048e291815143c3bfc90b5848e8dff0 histogram: 수치형 자료 빈도 시각화방법: 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 파악하기 쉬움Ex)고객들의 연령 분포를 파악 할 때x축: 수치형 자료y축: 자료의 빈도수 bullian indexing 추가 fillna (value) -> value 자리에 평균, 중앙, 최빈값 넣을 수 있음 isna ( ) 는 비어있는 값notta ( ) 비어있지 않은 값 ☑️ 범주형 데이터 전처리 - 인코딩(Encoding) 인코딩: 어떤 정보를 정해진 규칙에 따라 변환하는 것 (범주형 자료에 대한 전처리) 우리가 ..
https://yozm.wishket.com/magazine/detail/1721/ 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 | 요즘ITVOD 강의부터 부트캠프에 이르기까지, SQL(Structured Query Language, 데이터베이스 시스템에서 자료를 처리하는 용도로 사용되는 구조적 데이터 질의 언어)의 수요가 늘고 있다. 이제는 비단 백엔드 엔yozm.wishket.com 요약 : 엑셀과 관계형데이터베이스관리시스템 (RDBMS)는 여러 데이터를 나누어 저장하고 통합해서 사용하는 방식이 동일하다. 다른 점은,1) 엑셀은 마우스 클릭과 단축키로 하나 DB에선 명령어를 입력한다.2) 엑셀은 하나의 시트에서 사용자가 입력,조회,수정,삭제 가능하나 온라인D..
https://leetcode.com/problems/classes-more-than-5-students/ classes more than 5 studentsselect classfrom(select class, count(student) cnt_studentfrom Coursesgroup by 1 having cnt_student >=5)a
[Python] 머신러닝 빌드업 - 2회차 [Python] 머신러닝 빌드업 - 2회차 | Notion[강의자료 PDF]teamsparta.notion.site 1) 지도학습문제와 정답을 모두 알려주고 학습시키는 방법독립 변수(특성, Feature, X data)와 종속 변수(타겟, Label, Y data)의 세트로 구성된 데이터셋을 이용해 모델을 학습합니다.Feature가 주어졌을 때 적절한 답변을 모델이 내놓는 것이 목적입니다.타겟의 성격에 따라 크게 두 가지 문제로 분류 가능합니다.예측 (Prediction)평점, 시간, 가격, 변동률 등 타겟이 연속형(Continuous)인 경우예시 1) 머니볼2000년대 초반에 낮은 예산으로 운영되던 오클랜드 애슬레틱스의 단장 빌리 빈은 데이터를 기반으로 ..