목록2024/11 (45)
rubus0304 님의 블로그
프로젝트 달달 날짜계획11/29(금)-2PM 주제 정하기-9PM 계획서 제출12/2(월)-데이터전처리(이상치,결측치) 완성-머신러닝12/3(화)-시각화 완성12/4(수)-PPT들어갈 내용정리12/5(목)-PPT완성12/6(금)-발표스크립트 준비-발표영상녹화 및 투표-9PM PPT, 발표영상 제출12/9(월)-발표(10분) [제출물]PPT Python 코드 정리 파일대표 썸네일: 1280픽셀 * 720픽셀 (16:9 종횡비) ** 이번 발표 유의사항 ETA (Estimated Time of Arrival’ 도착예정시간 마감기한 맞추기 주제!ONAIR 순서발표 추가 평가항목: 기획안과 최종 결과물의 일치여부1.분석목표 일치/ (설정분석목표와 결과물 잘 맞는지 평가)2.분석방법 적용/ (제시된 분석방법이 ..
0. UCI 데이터 호출을 위한 패키지 설치pip install ucimlrepo 1. 기본 라이브러리 가져오기 import numpy as npNumpy (Numerical Python) : 파이썬의 고성능 수치계산을 위한 라이브러리- 여러 형태의 벡터 및 행렬연산과 나아가 여러 수학적인 기능들을 빠르고 간편하게 사용할 수 있는 기능제공.https://modulabs.co.kr/blog/python-numpy/ import pandas as pdPandas : 1차원(Sesries), 2차원 (Dataframe) 구조 데이터 용. - Numpy를 기반으로 다른 라이브러리들과 호환되게 설계. https://1000yun.tistory.com/2 import matpotlib.pyplot as plt- ..
[Python] 머신러닝 특강 - 군집 분석 pip install yellowbrick 이거 해야함!! Z-score 평균으로부터 얼마나 떨어져Z-Score : 0 해당 데이터는 평균과 같음을 의미합니다. (=평균에서 떨어진 거리가 0) IQR 4분위로 나눈데이터의 25% 지점()과 75% 지점() 사이의 범위()를 사용합니다. 이를 벗어나는 값들은 모두 이상치로 간주 ------ 이 아래로 cluster 해보기 ------Isolation Forest -- 프로젝트에서 사용해보기 DBScan 밀도기반 표준화: 실험하고 더 잘 나오는 거로.... minmax scale 자주 안 사용모든 데이터 0과 1사이 배치 (표준화보다 정규화에 더 가까움) - 데이터의 분포를 가져갈 수 없기 때문 st..
https://teamsparta.notion.site/4-883fc70db88e4263b706ea52f2e150c9 4. 딥러닝 | Notion1. 학습목표teamsparta.notion.site 2022년 12월 ChatGPT가 등장한 이래로 딥러닝에 대한 관심에 더욱 가속화 되었어요. 도대체 딥러닝이 뭐길래 그렇게 온 세상을 바꿀 것 처럼 얘기 할까요? 머신러닝에서 배운 기본을 바탕으로 딥러닝에 대해서 알아 봅시다.
https://yozm.wishket.com/magazine/detail/1070/ 양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가? | 요즘IT양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로yozm.wishket.com 요약 : 양질의 데이터를 판별하는 5가지 방법데이터의 수가 충분히 많음.데이터 자체의 오류가 적음.관계형데이터베이스형식을 잘 지킴.수치형 데이터 형식을 많이 보유.활용목적에 적합함.-보편적 특징일 뿐 모든 양질의 데이터가 철저히 지키는 것은 아니고, 낮은 품질의 데이터라고해서 안 갖춘 것도 아님. 다만, 판별하는데 도움.1)데이터의 양이..
평균은 이상치에 취약. import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt iris_df = sns.load_dataset('iris')iris_df.head(3) iris_df.info() sns.scatterplot(data = iris_df, x = 'sepal_length', y = 'sepal_width') sns.scatterplot(data = iris_df, x = 'sepal_length', y = 'sepal_width', hue = 'species') iris_df2 = iris_df[['sepal_length','sepal_width','petal_length','petal_width..
import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import LabelEncoderfrom sklearn.tree import DecisionTreeClassifier,plot_treetitaninc_df = pd.read_csv('C:/Users/82106/Desktop/데이터분석/강의/6.파이썬/4.머신러닝/ML/titanic/train.csv')titaninc_df.info() #Pclass: LabelEncoder#Sex: LabelEncoder#Age: 결측치-> 평균으로 대치하고 le = LabelEncoder()titaninc_df['Sex'] = le.fit_transform(titaninc_df[..
https://teamsparta.notion.site/1-8048e291815143c3bfc90b5848e8dff0 histogram: 수치형 자료 빈도 시각화방법: 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 파악하기 쉬움Ex)고객들의 연령 분포를 파악 할 때x축: 수치형 자료y축: 자료의 빈도수 bullian indexing 추가 fillna (value) -> value 자리에 평균, 중앙, 최빈값 넣을 수 있음 isna ( ) 는 비어있는 값notta ( ) 비어있지 않은 값 ☑️ 범주형 데이터 전처리 - 인코딩(Encoding) 인코딩: 어떤 정보를 정해진 규칙에 따라 변환하는 것 (범주형 자료에 대한 전처리) 우리가 ..
https://yozm.wishket.com/magazine/detail/1721/ 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 | 요즘ITVOD 강의부터 부트캠프에 이르기까지, SQL(Structured Query Language, 데이터베이스 시스템에서 자료를 처리하는 용도로 사용되는 구조적 데이터 질의 언어)의 수요가 늘고 있다. 이제는 비단 백엔드 엔yozm.wishket.com 요약 : 엑셀과 관계형데이터베이스관리시스템 (RDBMS)는 여러 데이터를 나누어 저장하고 통합해서 사용하는 방식이 동일하다. 다른 점은,1) 엑셀은 마우스 클릭과 단축키로 하나 DB에선 명령어를 입력한다.2) 엑셀은 하나의 시트에서 사용자가 입력,조회,수정,삭제 가능하나 온라인D..