-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathstart.txt
More file actions
91 lines (66 loc) · 3.74 KB
/
start.txt
File metadata and controls
91 lines (66 loc) · 3.74 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
Projekt biznesowy:
model do predykcji odejść klientów (customer churn) dla serwisów bazujących na subskrybcji.
_________________________________________________________________________
Cel: skuteczna predykcja, czy klient (w ciągu najbliższych trzech miesięcy) zrezygnuje z subskrybcji w serwisie.
Zrozumienie głównych czynników wpływających na odejścia klientów.
________
dataset:
https://archive.ics.uci.edu/dataset/563/iranian+churn+dataset
udostępniony przez University of California, Irvine
LICENSE
Creative Commons Attribution 4.0 International (CC BY 4.0) license
Allows for sharing and adaptation of the datasets for any purpose, provided that the appropriate credit is given.
Są to dane z bazy irańskiej firmy telekomunikacyjnej zebrane w okresie czasowym dwunastu miesięcy.
Ma 13 cech i 3 150 obserwacji. Nie ma brakujących wartości.
cechy:
Call Failure - Nieudane Połączenia (Integer),
Frequency of SMS - Częstotliwość wysyłania SMS-ów (Integer),
Complaints - Czy Złożono Skargi (Binary),
Distinct Called Numbers - Liczba Odrębnych Połączeń (Integer),
Subscription Length - Długość Abonamentu (Integer),
Age - Wiek (Integer)
Age Group - Grupa Wiekowa (Integer),
Charge Amount - Wysokość Opłaty (Integer),
Tariff Plan - Rodzaj Usługi (Integer),
Seconds of Use - Sekundy Użytkowania (Integer),
Status (Binary),
Frequency of Use - Częstotliwość Użytkowania (Integer),
Customer Value - Wartość dla Klienta (Continuous)
Etykieta:
Churn - Czy Zrezygnował z Subskrybcji (Binary)
Wszystkie atrybuty z wyjątkiem rezygnacji atrybutów to zagregowane dane z pierwszych 9 miesięcy.
Etykiety rezygnacji to stan klientów na koniec 12 miesięcy.
__________________________
wstępna propozycja modelu:
enhanced tree model
________________________
Etapy pracy projektowej:
1. Czyszczenie danych:
sprawdzenie konsystencji typpów danych w kolumnach
upewnienie się, że nie ma brakujących wartości
znalezienie duplikatów
znalezienie outlier'ów > 1,5 iqr i > 3 iqr
sprawdzenie konsystencji danych w kolumnach poątem zakresu wartości
Usuwanie wartości odstających i duplikatów.
2. Eksploracja danych:
Analiza danych w celu zrozumienia ich charakterystyki, rozkładu i zależności między zmiennymi, potencjalnych problemów.
Wnioski wyciągnięte na tym etapie są kluczowe dla dalszego wyboru modelu i customizacji modelu.
2a. Czy mamy dysbalans klas?
2b. Podstawowa analiza statystyczna
- Wygenerowanie i opisanie statystyk dla każdej z cech: średnia, mediana, odchylenie standardowe, kwartylw, min i max
-Wygenerowanie i wizualizacja rozkładów zmiennych: histogramy i wykresy pudełkowe
2c. Dalsza wizualizacja: Czy zmienne są zależne czy niezależne?
- Zobrazowanie zależności między parami zmiennych (scatter plots)
- Mapy ciepła korelacji
Jakie są to zależności (liniowe czy nieliniowe)?
Jak zmienne niezależne wpływają na zmienne zależne?
2d. Analiza zmiennych kategorycznych
- agregacja danych względem zmiennych kategorycznych, aby zrozumieć różnice między grupami
2e. Czy dane mają określoną tendencję czasową (sezonowość)?
3. Przygotowanie danych do modelowania
3a. Potencjalne normalizacja lub standaryzacja
3b. Zaimplementowanie alternatywnych metod radzenia sobie z potencjalnyh dysbalansem klas (oversampling, undersampling)
4. Wypróbowanie prostych modeli w celu lepszego zrozumienia danych:
regresja logistyczna, drzewo decyzyjne, KNN, Naiwny Bayes, Maszyny Wektorów Nośnych (SVM)
Użyjemy tych modeli jako punktu odniesienia dla porównania z bardziej złożonymi modelami.
Na podstawie wniosków z nich wyciągniętych będziemy stopniowo zwiększać złożoność modeli, aby poprawić dokładność predykcji.