22 lines (19 loc) · 1.45 KB

중요해 보이는 피쳐를 발굴한다.
- 생각나는 피쳐들을 각 컬럼으로 추가한다.
피쳐의 importance를 상관 계수를 통해서 구한다.
- detail
- 피쳐와 레이블을 join한다.
- 필요하다면, 각 피쳐별로, percentile을 구해서, 각 피쳐별로, 유저를 몇개의 seg로 나눠서, 각 피처별로 seg컬럼을 추가(seg를 나누는 이유는, 상관 계수는 선형적 상관도를 파악하는 거라서, seg별로 결과가 선형이 아닌, 군집되어 분포할 수도 있음)
- 각 피쳐의 seg별, 유저수, 피쳐의 평균값을 구하고,
- 각 피쳐의 seg별, 레이블의 평균값을 구하고,
- 각 피쳐의 seg들과 레이블과의 연관성이 있는지 살펴보기
  - 특정 seg에서 레이블 수치가 좋게 나오는 경우가 있을 수 있음
- 각 피쳐의 seg와 레이블과의 연관성을 상관계수로 파악하기 (cramers_v, pearson)
- 각 피쳐에 데이터가 얼마 없다면, 데이터가 있는 경우만 가지고 상관계수를 구해본다.
- 데이터가 있는 경우와 없는 경우. 두 seg로 나눠서 상관 계수를 구해본다.
의미 있는 상관관계가 있는 피쳐를 모델에 추가한다.

상관 계수

상관관계는 선형 관계를 의미함
r이 0에 근접할수록 선형 관계가 약함
양수 : 양의 상관 관계
음수 : 음의 상관 관계