목록2024/10 (82)
rubus0304 님의 블로그
분산분석(ANOVA) 먼저하고 t검정 (사후) 하는 것 P-value 0.05 0.01보다 아주 작은 수치 = 상관관계 있음 -0.77 은 -1에 가까울 수록 강한 음의 상관관계 갖음 회귀분석 개념/ R 코드 해석 (3~4문제 출제) R2 (R스퀘어) 우리 모형/ 실제나무 우리 모형이 표기하는 넓이가 점점 커질수록 즉 값이 클수록 잘 설명한 것!(아무리커도 1임 따라서 1에 가까울수록 큰 것. 잘 설명한 것 ) 다중공산성 TIF 단순회귀보다 다중회귀가 더 많이 쓰임 다항회귀는 항이 많아진게 아니라 차수가 높아진 것 X2 (제곱) 독립성 잔차만 가지고는 안 됨 더빛왓슨 으로 분석해야함
69. 대여 횟수가 많은 자동차들의 월별 대여 횟수 구하기 (답 이상한 거 같음 record 5이상이여야하는거 아님-_-???)CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 대여 시작일을 기준으로 2022년 8월부터 2022년 10월까지 총 대여 횟수가 5회 이상인 자동차들에 대해서 해당 기간 동안의 월별 자동차 ID 별 총 대여 횟수(컬럼명: RECORDS) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 월을 기준으로 오름차순 정렬하고, 월이 같다면 자동차 ID를 기준으로 내림차순 정렬해주세요. 특정 월의 총 대여 횟수가 0인 경우에는 결과에서 제외해주세요. select month, car_id, recordsfrom(SELECT mon..
https://yozm.wishket.com/magazine/detail/1750/ 데이터 시각화 101: ① 데이터 시각화는 왜 중요할까? | 요즘IT데이터의 양이 늘어나고 복잡해질 수록 데이터를 좀 더 쉽게 이해하고 인사이트를 발견하는 것의 필요성이 높아지고 있는데요. 데이터 시각화란 말 그대로 데이터에서 발견한 정보를 시각적으yozm.wishket.com 요약 : 시각화는 데이터테이블만으로는 찾기 어려운 많은 정보를 전문적 지식 없이도 직관적이고 쉽게 이해할 수 있도록 도우며 인사이트 도출과 의사 결정에 도움을 준다. 주요 포인트 :우리 주변의 데이터 시각화 : 네이버 지도를 통해 교통정보를 시각요소로 매핑됨시각정보는 쉽게 알 수 있다: 정보를 전달할 때 텍스트에 비해 빨리 전달됨찰나에 인사이트 발..
주장/ 진실 강도가 맞는데 강도가 아니라고 주장 -> 실력이 없음강도가 아닌데 강도라고 주장 -> 가볍게 주장 1종오류 : 1번 MBTI 처럼 근거가 약한 걸 보고 사실이라고 해서 주장 (아무 것도 아닌걸 약한 근거를 가지고 계속 주장) (성급한 판단이므로 더 막아야함)2종오류 : 4번 은행에서 동전가지고 간 것처럼 모두가 봐도 맞는 거 같은데 아니라고 해서 틀린 것 (그래도 계속 의심하는 것) H (가설)Ho: 강도가 아니다 H1: 강도가 맞다 귀무가설 (Ho): 내가 기각하고싶은 가설로 대립가설과 상반되는 개념대립가설 (H1): 내가 주장하고싶은 가설 모수라는 건 분포를 의미하고, 그 어떤 모수가 큰지 작은지 알고싶은 거다. 근데 큰지 작은지 알려면 각각의 분포를 보고 알 수 있는 거다...
이산형 확률분포 수치의 확률함수 = 확률질량함수- 셀 수 있다 - 더 하면 된다 ('시그마' 로 기호 표현) 연속형 확률분포 수치의 확률함수 = 확률밀도함수- 셀 수 없다 - 더 할 수 없다 ('적분 인테그랄 기호 S 씀) 균일분포 (=일양분포): 어떠한 특정 구간이 주어져도 확률이 일정한 것 이산형 확률분포 수치의 확률함수 = 확률질량함수- 셀 수 있다 - 더 하면 된다 ('시그마' 로 기호 표현) 연속형 확률분포 수치의 확률함수 = 확률밀도함수- 셀 수 없다 - 더 할 수 없다 ('적분 인테그랄 기호 S 씀) 표준정규분포 가운데가 0이고 분산=1 좌우 대칭 . 정규분포 비교하기 위해 표준정규분포 평균이 0이고 분산이 1인 특징이 있음 분포를 왜 배우나?: 특정값..
확률변수: 어떤 확률 실험이나 상황에서 발생할 수 있는 각각의 결과 (= 표본공간) 를 수치적 값으로 표현하는 변수 동전예시앞면이 나오는 개수 = Y 표본공간 = [앞앞앞, 앞앞 뒤, 앞 뒤 앞, 뒤 앞앞, 앞 뒤뒤, 뒤 앞 뒤, 뒤뒤뒤) 3 2 2 2 1 1 00개: 뒤뒤뒤1개: 앞뒤뒤, 뒤앞뒤, 뒤뒤앞2개: 앞앞뒤, 앞뒤앞, 뒤앞앞3개: 앞앞앞 즉, 표본 공간의 값들이 수치적 값으로 바꿔주는게 Y 확률변수 (함수임) 확률분포: 확률변수가 특정 값들을 가질 확률을 나타내는 함수 (확률함수가 그리는 패턴) 이항분포: 시행이 0 또는 1 (..
66. 조회수가 가장 많은 중고거래 게시판의 첨부파일 조회하기 USED_GOODS_BOARD와 USED_GOODS_FILE 테이블에서 조회수가 가장 높은 중고거래 게시물에 대한 첨부파일 경로를 조회하는 SQL문을 작성해주세요. 첨부파일 경로는 FILE ID를 기준으로 내림차순 정렬해주세요. 기본적인 파일경로는 /home/grep/src/ 이며, 게시글 ID를 기준으로 디렉토리가 구분되고, 파일이름은 파일 ID, 파일 이름, 파일 확장자로 구성되도록 출력해주세요. 조회수가 가장 높은 게시물은 하나만 존재합니다. (오답, 여기서 조회수가 가장 많은 출력 연결을 어케 해야하는지 막힘)SELECT concat('/home/grep/src/',b.board_id,'/',b.file_id,file_name,fi..
❗ 배울 내용파이썬 설치출력문 및 변수리스트, 튜플, 딕셔너리조건문반복문함수, 클래스파이썬 유용한 문법들 데이터 분석의 모든 과정에서 사용설명데이터 불러오기, 저장하기 부터 시작해서 데이터 전처리, 데이터 시각화, 데이터 계산 등 모든 과정에서 파이썬 문법이 쓰이지 않는 곳이 없음목적데이터 분석을 파이썬으로 하기 위한 문법 이해결과물데이터 분석의 모든 과정 수행 기대효과데이터 관리 : 당장 데이터 분석을 위해 방대한 데이터들을 불러오고 저장하는 것은 가장 기본적인 과정 입니다. 이것부터 파이썬 문법을 사용하기 시작합니다.데이터 전처리 : 데이터를 분석하기 전 데이터의 문제가 있는지 살펴보고 데이터를 분석하기 좋게 전처리하는 과정이 필수적입니다. 이 과정에서 파이썬 문법을 사용합니다. (특히, Panda..
59. 자동차 대여 기록에서 대여중/ 대여가능 여부 구분하기 CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 2022년 10월 16일에 대여 중인 자동차인 경우 '대여중' 이라고 표시하고, 대여 중이지 않은 자동차인 경우 '대여 가능'을 표시하는 컬럼(컬럼명: AVAILABILITY)을 추가하여 자동차 ID와 AVAILABILITY 리스트를 출력하는 SQL문을 작성해주세요. 이때 반납 날짜가 2022년 10월 16일인 경우에도 '대여중'으로 표시해주시고 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요. SELECT car_id, case when car_id in (select car_id fro..
수식보단 내용이해 중심으로! 남 100 / 여 200/ 노인 300 - 모집단 반영 잘 된건지 의문 반영-> 비례 층화 추출법 분포를 반영해서 남 100/ 여 200/ 노인 300 에 맞춰 남 1: 여 2: 노인 3 이렇게 추출 하여 비례 맞춤. -> 불비례 층화 추출법 :비례 상관없이 동일 숫자 추출 왜 구분 해야하느냐 : 데이터의 척도에 따라서 분석 방법을 달리하기 위해! 기술통계를 통해서 데이터를 파악하고 추리통계로 넘어가기는 것 !! 분산 - 얼마나 평균에서 떨어져 있는지 - 다 더하면 )이 되버림 - 양수라면 양의 선형 관계 음수라면 음의 선형 관계 확률과 확률분포 -> 알아야 뒤에 나오는 내용 이해가능 주사위를 던질 때 홀수가 나오면 짝수 나올 ..