[솔트룩스] 새싹 인공지능 응용 SW 개발자 양성과정 | 27일차 | 5. 머신러닝 (5)

 2022.01.20 | 27일차 | 5. 머신러닝 (5)

    - 권혜윤 강사님 ( yujinkwon@nate.com )

    - 강의 자료 및 코드 드라이브

    - XGBoost 수업 내용 코드 (코랩)

    - 분산 표준편차 공분산 상관관계 수업내용 코드 (코랩)

    



XGBoost를 이용한 유방암 데이터 분류


ROC AUC CURVE
  • Roc AUC Score 코드 (코랩)
  • 모델이 1클래스를 정확하게 예측할 수 록 sensitivity, TPR 값이 높아짐
  • ROC curve 아래 면적인 AUC(Area Under Curve)가 1에 가까워질수록 모델이 1 클래스를 예측하는 정확도가 높음


Kaggle 문제 풀기 : 회귀 프로젝트 | 자전거 대여 회수 예측 |

    • 컬럼정보
      • datetime : hourly date + timestamp
      • season : 1 봄, 2 여름, 3 가을, 4 겨울
      • holyday : 1 휴일, 0 휴일이 아닌날
      • workingday : 1 주중, 0 주말
      • weather : 1 맑음 - 4 심한 눈/비 등 
      • temp : 온도(섭씨)
      • atemp : 체감온도(섭씨)
      • humidity : 상대 습도
      • windspeed : 풍속
      • casual : 사전에 등록되지 않은 사용자가 대여한 횟수
      • registered : 사전에 등록한 사용자가 대여한 횟수
      • count : 대여 횟수
  • 데이터 탐색
    • 데이터 로딩
      • 필요 패키지 임포트
      • 데이터 불러오기
      • 컬럼명과 타입 조회
      • 결측치 조회
    • 컬럼 타입 변경
      • 선형회귀를 위해 datetime 데이터 분리
    • 데이터 탐색
      • year 별 count 컬럼 평균 조회 (2012년 대여횟수 증가)
      • month 별 count 컬럼 평균 조회 (5-10월에 대여횟수 증가)
      • day 별 count 컬럼 평균 조회
      • hour 별 count 컬럼 평균 조회 (출퇴근 시간에 대여횟수 증가)
      • minute & second 별 count 컬럼 평균 조회 (모든 데이터 0)
      • datetime 에서 요일 리턴
      • 주중 & 주말 분석
      • 요일 분석
      • 날씨 분석
      • 계절 분석
      • 풍속 분석
    • 상관 분석 
      • 상관관계 : 숫자값이 저장된 컬럼 사이의 상관 관계를 계산
        • 주의점: 아웃라이어 하나 때문에, 직선적인 경향이 갑자기 높아질 수 도, 낮아질 수도 있으니, 아웃라이어(이상값) 처리가 중요함. 
        • 2022.01.20 여기까지
      • 데이터 탐색
  • 회귀 분석
  • 이상값 조회
  • 데이터 정규화
  • 회귀분석
  • 전처리
    • 결측치 처리
    • 컬럼 추가 (peak)
    • 컬럼 추가 (ideal)
    • 컬럼 추가 (sticky)
  • Random Forest 알고리즘
    • Random Forest 알고리즘을 이용한 예측
  • XGBoost 알고리즘
    • XGBoost 알고리즘을 이용한 예측
  • 자전거 대여 횟수 예측
    • 날씨에 따른 자전거 대여 횟수 예측
    • 컬럼 정보


상관 분석

  • 상관분석 (Correlation Analysis)
    • 공분산을 X와 Y의 표준편차(X, Y에 저장된 값들의 차이)로 나눠서 비율을 조회
    • 숫자값이 저장된 컬럼 사이의 상관 관계를 계산
    • 시각화
    • 계산



댓글

이 블로그의 인기 게시물

[혼자 공부하는 머신러닝 + 딥러닝] 17강_인공 신경망: 간단한 인공 신경망 모델 만들기

[솔트룩스] 새싹 인공지능 응용 SW 개발자 양성과정 | 24일차 | 5. 머신러닝 (2)

[혼자 공부하는 머신러닝 + 딥러닝] 10강_확률적 경사 하강법 알아보기