2022.01.17 | 24일차 | 5. 머신러닝 (2) - 권혜윤 강사님 ( yujinkwon@nate.com ) - Decision Tree 수업 내용 코드 (코랩) - Random Forest 수업 내용 코드 (코랩) Decision Tree 분리 기준 (Split Criterion) 부모 마디로부터 자식 마디들이 형성될 때, 생성된 자식 노드에 속하는 자료의 순수도가 가장 크게 증가하도록 트리를 형성하며 진행 입력 변수를 이용해 목표 변수의 분포를 얼마나 잘 구별하는 정도를 파악해 자식 마디가 형성되는데, 목표 변수의 구별 정도를 불순도에 의해 측정 지니 지수 (Gini Index) : 데이터 집합의 불순도를 측정 0~1 사이의 값 어떤 데이터 집합에 속한 개체들이 같은 범주로 구성되어 있으면 지니 지수는 최솟값이 0을 갖고, 해당 데이터 집합은 순수하다고 볼 수 있음. 즉, 지니 지수가 작을수록 잘 분류된 것. Tree 만든 데이터는 정확도가 100% 데이터 보고 Gini 계산해서 Tree를 만들었기 때문 모든 데이터로 Tree를 만들어서 만든 Tree가 정확한 Tree인지 알 수 없음 해결방안 전체 75% 로 Tree를 만들고 (Train Set), 일부 25% 는 보관 (Test Set), 나중에 Test set 데이터로 Tree가 얼마나 정확한지 측정 강의자료 실습 Decision Tree [실습교재코드] 패키지 설명 Scikit-learn (sklearn) Python 프로그래밍 언어용 기계학습(Machine Learning) 관련 라이브러리 (Library) sklearn.metrics scikit-learn 패키지 중 모형평가에 사용되는 서브 패키지 classification_report: 주요 분류 측정 항목을 보여주는 보고서 모듈 confusion_matrix: 분류...
댓글
댓글 쓰기