Customer_Churn_Prediction/start.txt at master · artystkaProgramistka/Customer_Churn_Prediction · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
Projekt biznesowy:
model do predykcji odejść klientów (customer churn) dla serwisów bazujących na subskrybcji.

_________________________________________________________________________
Cel: skuteczna predykcja, czy klient (w ciągu najbliższych trzech miesięcy) zrezygnuje z subskrybcji w serwisie.
Zrozumienie głównych czynników wpływających na odejścia klientów.

________
dataset:
	https://archive.ics.uci.edu/dataset/563/iranian+churn+dataset

	udostępniony przez University of California, Irvine

	LICENSE
		Creative Commons Attribution 4.0 International (CC BY 4.0) license

	Allows for sharing and adaptation of the datasets for any purpose, provided that the appropriate credit is given.

	Są to dane z bazy irańskiej firmy telekomunikacyjnej zebrane w okresie czasowym dwunastu miesięcy.
	Ma 13 cech i 3 150 obserwacji. Nie ma brakujących wartości.
	cechy:
		Call Failure - Nieudane Połączenia (Integer),
		Frequency of SMS - Częstotliwość wysyłania SMS-ów (Integer),
		Complaints - Czy Złożono Skargi (Binary),
		Distinct Called Numbers - Liczba Odrębnych Połączeń (Integer),
		Subscription Length - Długość Abonamentu (Integer),
		Age - Wiek (Integer)
		Age Group - Grupa Wiekowa (Integer),
		Charge Amount - Wysokość Opłaty (Integer),
		Tariff Plan - Rodzaj Usługi (Integer),
		Seconds of Use - Sekundy Użytkowania (Integer),
		Status (Binary),
		Frequency of Use - Częstotliwość Użytkowania (Integer),
		Customer Value - Wartość dla Klienta (Continuous)

	Etykieta:
	Churn - Czy Zrezygnował z Subskrybcji (Binary)

	Wszystkie atrybuty z wyjątkiem rezygnacji atrybutów to zagregowane dane z pierwszych 9 miesięcy.
	Etykiety rezygnacji to stan klientów na koniec 12 miesięcy.

__________________________
wstępna propozycja modelu:

enhanced tree model

________________________
Etapy pracy projektowej:

1. Czyszczenie danych:
	sprawdzenie konsystencji typpów danych w kolumnach
	upewnienie się, że nie ma brakujących wartości
	znalezienie duplikatów
	znalezienie outlier'ów > 1,5 iqr i > 3 iqr
	sprawdzenie konsystencji danych w kolumnach poątem zakresu wartości

	Usuwanie wartości odstających i duplikatów.

2. Eksploracja danych:
	Analiza danych w celu zrozumienia ich charakterystyki, rozkładu i zależności między zmiennymi, potencjalnych problemów.
	Wnioski wyciągnięte na tym etapie są kluczowe dla dalszego wyboru modelu i customizacji modelu.

	2a. Czy mamy dysbalans klas?

	2b. Podstawowa analiza statystyczna
		- Wygenerowanie i opisanie statystyk dla każdej z cech: średnia, mediana, odchylenie standardowe, kwartylw, min i max

		-Wygenerowanie i wizualizacja rozkładów zmiennych: histogramy i wykresy pudełkowe

	2c. Dalsza wizualizacja: Czy zmienne są zależne czy niezależne?
		- Zobrazowanie zależności między parami zmiennych (scatter plots)

		-  Mapy ciepła korelacji
		Jakie są to zależności (liniowe czy nieliniowe)?
		Jak zmienne niezależne wpływają na zmienne zależne?

	2d. Analiza zmiennych kategorycznych
		- agregacja danych względem zmiennych kategorycznych, aby zrozumieć różnice między grupami

	2e. Czy dane mają określoną tendencję czasową (sezonowość)?


3. Przygotowanie danych do modelowania
	3a. Potencjalne normalizacja lub standaryzacja
	3b. Zaimplementowanie alternatywnych metod radzenia sobie z potencjalnyh dysbalansem klas (oversampling, undersampling)

4. Wypróbowanie prostych modeli w celu lepszego zrozumienia danych:
	regresja logistyczna, drzewo decyzyjne, KNN, Naiwny Bayes, Maszyny Wektorów Nośnych (SVM)

	Użyjemy tych modeli jako punktu odniesienia dla porównania z bardziej złożonymi modelami.
	Na podstawie wniosków z nich wyciągniętych będziemy stopniowo zwiększać złożoność modeli, aby poprawić dokładność predykcji.