-
문제를 정의한다
- 문제가 정확히 무엇인지 모르면, 모델을 만들어도 목적 달성이 어려울 수 있다.
- 완벽히 문제를 풀 수는 없다. 어떤 부분을 중요하게 풀어야 하는지 정의한다
-
문제를 푸는 다양한 방법들을 리스트업한다
- ML모델 개발이 꼭 필요하지 않을 수 있다
- ML모델이 필요한 이유가 명확해야 하고, ML모델을 쓸지 결정한다
-
레이블, 피쳐 정의
- 레이블 수집 방법
- 레이블에 상관관계가 있는 피쳐 분석
- 유저 리서치
- 일반 상식
- 상품 분석
- 사용할 피쳐 정의
- 피쳐 수집 방법
-
계획 수립
- 가볍게 레이블, 피쳐를 준비해서 학습하여 가능성을 검토
- 개발 우선순위 정리
-
레이블 개발
- 레이블 수집
- 레이블 정확도 평가
- 레이블 분포 확인 및 target transformation 고려
- outlier 처리
-
피쳐 개발
- 피쳐 수집
- 레이블과 상관관계 분석
- missing value imputation 설정
-
학습
- 적절한 모델 선정
- Auto ML로 문제에 적합한 모델 선정
- 성능 평가 지표 선정
- 문제에 따라 평가 지표가 다르다
- 모델 학습
- train test set 분리
- cross validation
- kfold
- stratified
- cross validation
- train test set 분리
- 모델 평가
- 예측치와 실제값 비교
- 피쳐 importance확인 및 selection
- 튜닝, ensemble model
- 적절한 모델 선정
-
배포