Skip to content

Latest commit

 

History

History
22 lines (19 loc) · 1.45 KB

File metadata and controls

22 lines (19 loc) · 1.45 KB
  1. 중요해 보이는 피쳐를 발굴한다.

    • 생각나는 피쳐들을 각 컬럼으로 추가한다.
  2. 피쳐의 importance를 상관 계수를 통해서 구한다.

    • detail
    • 피쳐와 레이블을 join한다.
    • 필요하다면, 각 피쳐별로, percentile을 구해서, 각 피쳐별로, 유저를 몇개의 seg로 나눠서, 각 피처별로 seg컬럼을 추가(seg를 나누는 이유는, 상관 계수는 선형적 상관도를 파악하는 거라서, seg별로 결과가 선형이 아닌, 군집되어 분포할 수도 있음)
    • 각 피쳐의 seg별, 유저수, 피쳐의 평균값을 구하고,
    • 각 피쳐의 seg별, 레이블의 평균값을 구하고,
    • 각 피쳐의 seg들과 레이블과의 연관성이 있는지 살펴보기
      • 특정 seg에서 레이블 수치가 좋게 나오는 경우가 있을 수 있음
    • 각 피쳐의 seg와 레이블과의 연관성을 상관계수로 파악하기 (cramers_v, pearson)
    • 각 피쳐에 데이터가 얼마 없다면, 데이터가 있는 경우만 가지고 상관계수를 구해본다.
    • 데이터가 있는 경우와 없는 경우. 두 seg로 나눠서 상관 계수를 구해본다.
  3. 의미 있는 상관관계가 있는 피쳐를 모델에 추가한다.

상관 계수

  • 상관관계는 선형 관계를 의미함
  • r이 0에 근접할수록 선형 관계가 약함
  • 양수 : 양의 상관 관계
  • 음수 : 음의 상관 관계