목록2024/11/27 (5)
rubus0304 님의 블로그
평균은 이상치에 취약. import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt iris_df = sns.load_dataset('iris')iris_df.head(3) iris_df.info() sns.scatterplot(data = iris_df, x = 'sepal_length', y = 'sepal_width') sns.scatterplot(data = iris_df, x = 'sepal_length', y = 'sepal_width', hue = 'species') iris_df2 = iris_df[['sepal_length','sepal_width','petal_length','petal_width..
import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import LabelEncoderfrom sklearn.tree import DecisionTreeClassifier,plot_treetitaninc_df = pd.read_csv('C:/Users/82106/Desktop/데이터분석/강의/6.파이썬/4.머신러닝/ML/titanic/train.csv')titaninc_df.info() #Pclass: LabelEncoder#Sex: LabelEncoder#Age: 결측치-> 평균으로 대치하고 le = LabelEncoder()titaninc_df['Sex'] = le.fit_transform(titaninc_df[..
https://teamsparta.notion.site/1-8048e291815143c3bfc90b5848e8dff0 histogram: 수치형 자료 빈도 시각화방법: 연속형 분포를 나타내고 싶을 때, 데이터가 몰려있는 구간을 파악하기 쉬움Ex)고객들의 연령 분포를 파악 할 때x축: 수치형 자료y축: 자료의 빈도수 bullian indexing 추가 fillna (value) -> value 자리에 평균, 중앙, 최빈값 넣을 수 있음 isna ( ) 는 비어있는 값notta ( ) 비어있지 않은 값 ☑️ 범주형 데이터 전처리 - 인코딩(Encoding) 인코딩: 어떤 정보를 정해진 규칙에 따라 변환하는 것 (범주형 자료에 대한 전처리) 우리가 ..
https://yozm.wishket.com/magazine/detail/1721/ 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 | 요즘ITVOD 강의부터 부트캠프에 이르기까지, SQL(Structured Query Language, 데이터베이스 시스템에서 자료를 처리하는 용도로 사용되는 구조적 데이터 질의 언어)의 수요가 늘고 있다. 이제는 비단 백엔드 엔yozm.wishket.com 요약 : 엑셀과 관계형데이터베이스관리시스템 (RDBMS)는 여러 데이터를 나누어 저장하고 통합해서 사용하는 방식이 동일하다. 다른 점은,1) 엑셀은 마우스 클릭과 단축키로 하나 DB에선 명령어를 입력한다.2) 엑셀은 하나의 시트에서 사용자가 입력,조회,수정,삭제 가능하나 온라인D..