목록자격증 (15)
rubus0304 님의 블로그
보호되어 있는 글입니다.
다층신경망이 너무너무너무 깊어지면 딥러닝으로 이어짐. 인공신경망 학습은 순전파 알고리즘 먼저 활용한 후 역전파 알고리즘 활용. 즉 둘 다 활용하여 학습한다 " 베이즈 정리를 기반으로 한 머신러닝 기법은 나이브 베이즈 분류이다. " (O) 스팸메일이 베이즈 확률 실제 이 표를 주고 (옆에 안 써있음.. 밑에비율 계산할 수 있는가!!) 군집분석 : 정답을 주고 학습시키는게 아니므로 데이터를 군집으로 묶어 이렇게 하면 좋을 것 같다 군집을 잡음 연관분석 계산하는 것만 보기!1
https://teamsparta.notion.site/12-d999e78128f74dd49d176475f027a2f9 [스파르타코딩클럽] 12. 정형 데이터 마이닝 개요 | Notion매 주차 강의자료 시작에 PDF파일을 올려두었어요!teamsparta.notion.site 데이터 마이닝모형평가분류분석군집분석연관분석 부트스트랩, 데이터 적어도 5개 뽑았어 사용하고 다시 넣어둠 (리샘플링) 중복 나오는거 허용. 혼자서 할 수 있음 복원추출을 통해 여러 개 샘플 생성 모집단 특성 추정 최대우도추정법우도: 모델이 데이터를 얼마나 잘 설명해주는지 보여주는 것. 크면 좋은 것 최후추정치: 그 데이터에 가장 잘 맞는 추정치다. 일반회귀분석과 어떤 차이가 있는지 차이점 ..
맨 아래 초록색 선 전체평균 / 그 위에 초록색 회귀 추세선 / 파란색 동그라미 데이터 // 우리 모형 전체평균대비 설명하고 있는 것 -> SSR / 나머지는 우리 모형이 설명 못 하고 있는 것 -> SSE f 작음 p value 0.05 0.01 보다도 작네 유의미 우리가 만든 방정식 잘 설명r quare 1 다 설명 // t value 통해 3 개 중 누가 우리 데이터 제일 많이 쓰는지 알 수 있다. 시계열 분석/ 시계열 모형 지엽적 문제!! 시계열 - 시간의 흐름에 따라서 관측된 자료 원시계열 자료에서 앞에 자료를 빼면 차분 = 비정상성 시계열 자료 관련 실습부문 안 봐도 됨. 위에 세 개만! 보
분산분석(ANOVA) 먼저하고 t검정 (사후) 하는 것 P-value 0.05 0.01보다 아주 작은 수치 = 상관관계 있음 -0.77 은 -1에 가까울 수록 강한 음의 상관관계 갖음 회귀분석 개념/ R 코드 해석 (3~4문제 출제) R2 (R스퀘어) 우리 모형/ 실제나무 우리 모형이 표기하는 넓이가 점점 커질수록 즉 값이 클수록 잘 설명한 것!(아무리커도 1임 따라서 1에 가까울수록 큰 것. 잘 설명한 것 ) 다중공산성 TIF 단순회귀보다 다중회귀가 더 많이 쓰임 다항회귀는 항이 많아진게 아니라 차수가 높아진 것 X2 (제곱) 독립성 잔차만 가지고는 안 됨 더빛왓슨 으로 분석해야함
주장/ 진실 강도가 맞는데 강도가 아니라고 주장 -> 실력이 없음강도가 아닌데 강도라고 주장 -> 가볍게 주장 1종오류 : 1번 MBTI 처럼 근거가 약한 걸 보고 사실이라고 해서 주장 (아무 것도 아닌걸 약한 근거를 가지고 계속 주장) (성급한 판단이므로 더 막아야함)2종오류 : 4번 은행에서 동전가지고 간 것처럼 모두가 봐도 맞는 거 같은데 아니라고 해서 틀린 것 (그래도 계속 의심하는 것) H (가설)Ho: 강도가 아니다 H1: 강도가 맞다 귀무가설 (Ho): 내가 기각하고싶은 가설로 대립가설과 상반되는 개념대립가설 (H1): 내가 주장하고싶은 가설 모수라는 건 분포를 의미하고, 그 어떤 모수가 큰지 작은지 알고싶은 거다. 근데 큰지 작은지 알려면 각각의 분포를 보고 알 수 있는 거다...
이산형 확률분포 수치의 확률함수 = 확률질량함수- 셀 수 있다 - 더 하면 된다 ('시그마' 로 기호 표현) 연속형 확률분포 수치의 확률함수 = 확률밀도함수- 셀 수 없다 - 더 할 수 없다 ('적분 인테그랄 기호 S 씀) 균일분포 (=일양분포): 어떠한 특정 구간이 주어져도 확률이 일정한 것 이산형 확률분포 수치의 확률함수 = 확률질량함수- 셀 수 있다 - 더 하면 된다 ('시그마' 로 기호 표현) 연속형 확률분포 수치의 확률함수 = 확률밀도함수- 셀 수 없다 - 더 할 수 없다 ('적분 인테그랄 기호 S 씀) 표준정규분포 가운데가 0이고 분산=1 좌우 대칭 . 정규분포 비교하기 위해 표준정규분포 평균이 0이고 분산이 1인 특징이 있음 분포를 왜 배우나?: 특정값..
확률변수: 어떤 확률 실험이나 상황에서 발생할 수 있는 각각의 결과 (= 표본공간) 를 수치적 값으로 표현하는 변수 동전예시앞면이 나오는 개수 = Y 표본공간 = [앞앞앞, 앞앞 뒤, 앞 뒤 앞, 뒤 앞앞, 앞 뒤뒤, 뒤 앞 뒤, 뒤뒤뒤) 3 2 2 2 1 1 00개: 뒤뒤뒤1개: 앞뒤뒤, 뒤앞뒤, 뒤뒤앞2개: 앞앞뒤, 앞뒤앞, 뒤앞앞3개: 앞앞앞 즉, 표본 공간의 값들이 수치적 값으로 바꿔주는게 Y 확률변수 (함수임) 확률분포: 확률변수가 특정 값들을 가질 확률을 나타내는 함수 (확률함수가 그리는 패턴) 이항분포: 시행이 0 또는 1 (..
수식보단 내용이해 중심으로! 남 100 / 여 200/ 노인 300 - 모집단 반영 잘 된건지 의문 반영-> 비례 층화 추출법 분포를 반영해서 남 100/ 여 200/ 노인 300 에 맞춰 남 1: 여 2: 노인 3 이렇게 추출 하여 비례 맞춤. -> 불비례 층화 추출법 :비례 상관없이 동일 숫자 추출 왜 구분 해야하느냐 : 데이터의 척도에 따라서 분석 방법을 달리하기 위해! 기술통계를 통해서 데이터를 파악하고 추리통계로 넘어가기는 것 !! 분산 - 얼마나 평균에서 떨어져 있는지 - 다 더하면 )이 되버림 - 양수라면 양의 선형 관계 음수라면 음의 선형 관계 확률과 확률분포 -> 알아야 뒤에 나오는 내용 이해가능 주사위를 던질 때 홀수가 나오면 짝수 나올 ..
데이터 마트와 데이터 웨어하우스 구분 데이터 마트 개발 - 패키지들 안 봐도 된다 (시험에는 안 나옴)) 이론 위주로 SQLDF = SQL 을 R에서 사용 가능하게 해주는 패키지 단순 확률 대치법: 전체 평균이 아닌 그 근처에 값 평균값 (KNN - K 군집) 다중 대치법: 값에 다양한 값 대치해서 데이터 셋 여러개 만들어보는 것 이상값: 보통은 제외하고 분석 (결과도출에 방해하는 값으로 인식// but, 무조건 제외 노노. Q1 1사분, Q2 2사분 (중앙값), Q3 3사분