[솔트룩스] 새싹 인공지능 응용 SW 개발자 양성과정 | 27일차 | 5. 머신러닝 (5)
2022.01.20 | 27일차 | 5. 머신러닝 (5)
- 권혜윤 강사님 ( yujinkwon@nate.com )
- 분산 표준편차 공분산 상관관계 수업내용 코드 (코랩)
XGBoost를 이용한 유방암 데이터 분류
ROC AUC CURVE
- Roc AUC Score 코드 (코랩)
- 모델이 1클래스를 정확하게 예측할 수 록 sensitivity, TPR 값이 높아짐
- ROC curve 아래 면적인 AUC(Area Under Curve)가 1에 가까워질수록 모델이 1 클래스를 예측하는 정확도가 높음
Kaggle 문제 풀기 : 회귀 프로젝트 | 자전거 대여 회수 예측 |
- 회귀 프로젝트: 자전거 대여 횟수 예측 코드 (코랩)
- 프로젝트 개요
- 자전거 대여 횟수 예측
- 날씨에 따른 자전거 대여 횟수 예측
- 2011년 1월부터 2012년 12월까지 날짜/시간, 기온, 습도, 풍속 등의 정보를 기반으로 1시간 간경동안 자전거 대여 횟수
- 컬럼정보
- datetime : hourly date + timestamp
- season : 1 봄, 2 여름, 3 가을, 4 겨울
- holyday : 1 휴일, 0 휴일이 아닌날
- workingday : 1 주중, 0 주말
- weather : 1 맑음 - 4 심한 눈/비 등
- temp : 온도(섭씨)
- atemp : 체감온도(섭씨)
- humidity : 상대 습도
- windspeed : 풍속
- casual : 사전에 등록되지 않은 사용자가 대여한 횟수
- registered : 사전에 등록한 사용자가 대여한 횟수
- count : 대여 횟수
- 데이터 탐색
- 데이터 로딩
- 필요 패키지 임포트
- 데이터 불러오기
- 컬럼명과 타입 조회
- 결측치 조회
- 컬럼 타입 변경
- 선형회귀를 위해 datetime 데이터 분리
- 데이터 탐색
- year 별 count 컬럼 평균 조회 (2012년 대여횟수 증가)
- month 별 count 컬럼 평균 조회 (5-10월에 대여횟수 증가)
- day 별 count 컬럼 평균 조회
- hour 별 count 컬럼 평균 조회 (출퇴근 시간에 대여횟수 증가)
- minute & second 별 count 컬럼 평균 조회 (모든 데이터 0)
- datetime 에서 요일 리턴
- 주중 & 주말 분석
- 요일 분석
- 날씨 분석
- 계절 분석
- 풍속 분석
- 상관 분석
- 상관관계 : 숫자값이 저장된 컬럼 사이의 상관 관계를 계산
- 주의점: 아웃라이어 하나 때문에, 직선적인 경향이 갑자기 높아질 수 도, 낮아질 수도 있으니, 아웃라이어(이상값) 처리가 중요함.
- 2022.01.20 여기까지
- 데이터 탐색
- 회귀 분석
- 이상값 조회
- 데이터 정규화
- 회귀분석
- 전처리
- 결측치 처리
- 컬럼 추가 (peak)
- 컬럼 추가 (ideal)
- 컬럼 추가 (sticky)
- Random Forest 알고리즘
- Random Forest 알고리즘을 이용한 예측
- XGBoost 알고리즘
- XGBoost 알고리즘을 이용한 예측
- 자전거 대여 횟수 예측
- 날씨에 따른 자전거 대여 횟수 예측
- 컬럼 정보
상관 분석
- 분산 표준편차 공분산 상관관계 코드 (코랩)
- 편차 (Deviation)
- 데이터와 평균의 차
- 분산 (Variance)
- var( )
- 편차 제곱을 데이터의 개수-1 (자유도)로 나눈것
- 데이터의 차이를 하나의 숫자로 나타냄
- 표준편차 (Standard Deviation)
- std( )
- 분산에 루트를 계산
- 공분산 (Covariance)
- 두개의 컬럼 X와 Y가 있을 때 컬럼 1이 증가 할 때 컬럼 2가 같이 증가 하는가 아니면 감소하는가를 나타내는 지표.
- 상관분석 (Correlation Analysis)
- 공분산을 X와 Y의 표준편차(X, Y에 저장된 값들의 차이)로 나눠서 비율을 조회
- 숫자값이 저장된 컬럼 사이의 상관 관계를 계산
- 시각화
- 계산








댓글
댓글 쓰기