tda-mapper-python/benchmarks/benchmark.py at a7bc234935ca2c235da4903aa581338ef8baee6f · lucasimi/tda-mapper-python · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
import time

import gtda.mapper as gm
import kmapper as km
import numpy as np
import pandas as pd
from sklearn.base import ClusterMixin
from sklearn.datasets import fetch_openml, load_digits
from sklearn.decomposition import PCA

import tdamapper as tm
from tdamapper.core import TrivialClustering


def _segment(cardinality, dimension, noise=0.1, start=None, end=None):
    if start is None:
        start = np.zeros(dimension)
    if end is None:
        end = np.ones(dimension)
    coefficients = np.random.rand(cardinality, 1)
    points = start + coefficients * (end - start)
    noise = np.random.normal(0, noise, size=(cardinality, dimension))
    return points + noise


def _load_openml(name):
    XX, _ = fetch_openml(name=name, return_X_y=True)
    return XX.to_numpy()


def line(k):
    return _segment(100000, k, 0.01)


def digits(k):
    X_digits, _ = load_digits(return_X_y=True)
    return PCA(k).fit_transform(X_digits)


def mnist(k):
    X = _load_openml("mnist_784")
    return PCA(k).fit_transform(X)


def cifar10(k):
    X = _load_openml("CIFAR_10")
    return PCA(k).fit_transform(X)


def fashion_mnist(k):
    X = _load_openml("Fashion-MNIST")
    return PCA(k).fit_transform(X)


# wrapper class to supply trivial clustering to giotto-tda
class TrivialEstimator(ClusterMixin):

    def get_params(self, deep=True):
        return {}

    def set_params(self, **parmeters):
        return self

    def fit(self, X, y=None):
        clust = TrivialClustering()
        self.labels_ = clust.fit(X, y).labels_
        return self


def run_gm(X, n, p):
    t0 = time.time()
    pipe = gm.make_mapper_pipeline(
        filter_func=lambda x: x,
        cover=gm.CubicalCover(n_intervals=n, overlap_frac=p),
        clusterer=TrivialEstimator(),
    )
    pipe.fit_transform(X)
    t1 = time.time()
    return t1 - t0


def run_tm(X, n, p):
    t0 = time.time()
    tm.learn.MapperAlgorithm(
        cover=tm.cover.CubicalCover(
            n_intervals=n,
            overlap_frac=p,
            # leaf_capacity=1000,
            # leaf_radius=1.0 / (2.0 - 2.0 * p),
            # kind='hierarchical',
            # pivoting='random',
        ),
        clustering=TrivialEstimator(),
    ).fit_transform(X, X)
    t1 = time.time()
    return t1 - t0


def run_km(X, n, p):
    t0 = time.time()
    mapper = km.KeplerMapper(verbose=0)
    mapper.map(
        lens=X,
        X=X,
        cover=km.Cover(n_cubes=n, perc_overlap=p),
        clusterer=TrivialEstimator(),
    )
    t1 = time.time()
    return t1 - t0


def run_bench(benches, datasets, dimensions, overlaps, intervals):
    df_bench = pd.DataFrame(
        {
            "bench": [],
            "dataset": [],
            "p": [],
            "n": [],
            "k": [],
            "time": [],
        }
    )
    launch_time = int(time.time())
    for bench_name, bench in benches:
        for dataset_name, dataset in datasets:
            for k in dimensions:
                X = dataset(k)
                for p in overlaps:
                    for n in intervals:
                        t = bench(X, n, p)
                        df_delta = pd.DataFrame(
                            {
                                "bench": bench_name,
                                "dataset": dataset_name,
                                "p": p,
                                "n": n,
                                "k": k,
                                "time": t,
                            },
                            index=[0],
                        )
                        print(df_delta)
                        df_bench = pd.concat([df_bench, df_delta], ignore_index=True)
                        df_bench.to_csv(f"./benchmark_{launch_time}.csv", index=False)


if __name__ == "__main__":
    run_tm(line(1), 1, 0.5)  # fist run to jit-compile numba decorated functions

    run_bench(
        overlaps=[0.125, 0.25, 0.5],
        datasets=[
            ("line", line),
            ("digits", digits),
            ("mnist", mnist),
            ("cifar10", cifar10),
            ("fashion_mnist", fashion_mnist),
        ],
        intervals=[
            10,
        ],
        dimensions=[
            1,
            2,
            3,
            4,
            5,
        ],
        benches=[
            ("tda-mapper", run_tm),
            ("kepler-mapper", run_km),
            ("giotto-tda", run_gm),
        ],
    )