Update tests

LadyChristina · LadyChristina · commit e98bb661ea10 · 2026-02-09T21:46:26.000Z
diff --git a/tests/test_analyze.py b/tests/test_analyze.py
@@ -1,5 +1,6 @@
 import shutil
 import pytest
+import csv
 from consensus_decentralization.helper import INTERIM_DIR, get_clustering_flag
 from consensus_decentralization.analyze import analyze
 
@@ -59,62 +60,49 @@ def test_analyze(setup_and_cleanup):
         population_windows=0
     )
 
-    metrics = ['gini', 'nakamoto_coefficient', 'entropy=1']
-    for metric in metrics:
-        output_file = test_output_dir / 'metrics' / f'{metric}.csv'
-        assert output_file.is_file()
+    output_file = test_output_dir / 'metrics' / 'output_clustered.csv'
+    assert output_file.is_file()
 
-        with open(output_file) as f:
-            lines = f.readlines()
-            assert lines[0] == 'timeframe,sample_bitcoin\n'
-            if metric == 'gini':
-                assert lines[1] == '2018,0.25\n'
-            elif metric == 'nakamoto_coefficient':
-                assert lines[1] == '2018,2\n'
-            elif metric == 'entropy=1':
-                assert lines[1] == '2018,1.836591668108979\n'
+    with open(output_file) as f:
+        reader = list(csv.reader(f))
+    header = reader[0]
+    # find metric column indices
+    gini_idx = header.index('gini')
+    nc_idx = header.index('nakamoto_coefficient')
+    ent_idx = header.index('entropy=1')
 
-    analyze(
-        projects=projects,
-        aggregated_data_filename='month_from_2018-02-01_to_2018-03-31.csv',
-        input_dir=test_output_dir,
-        output_dir=test_output_dir / 'metrics',
-        population_windows=0
-    )
-
-    metrics = ['gini', 'nakamoto_coefficient', 'entropy=1']
-    for metric in metrics:
-        output_file = test_output_dir / 'metrics' / f'{metric}.csv'
-        assert output_file.is_file()
-
-        with open(output_file) as f:
-            lines = f.readlines()
-            assert lines[0] == 'timeframe,sample_bitcoin\n'
-            if metric == 'gini':
-                assert lines[1] == 'Feb-2018,0.16666666666666666\n'
-                assert lines[2] == 'Mar-2018,0.0\n'
-            elif metric == 'nakamoto_coefficient':
-                assert lines[1] == 'Feb-2018,1\n'
-                assert lines[2] == 'Mar-2018,1\n'
-            elif metric == 'entropy=1':
-                assert lines[1] == 'Feb-2018,1.5\n'
-                assert lines[2] == 'Mar-2018,0.0\n'
+    # find the row for sample_bitcoin and 2018
+    data_row = None
+    for row in reader[1:]:
+        if row[0] == 'sample_bitcoin' and row[1] == '2018':
+            data_row = row
+            break
+    assert data_row is not None
+    assert data_row[gini_idx] == '0.25'
+    assert data_row[nc_idx] == '2'
+    assert data_row[ent_idx] == '1.836591668108979'
 
     analyze(
         projects=projects,
-        aggregated_data_filename='year_from_2010-01-01_to_2010-12-31.csv',
+        aggregated_data_filename='month_from_2018-02-01_to_2018-03-31.csv',
         input_dir=test_output_dir,
         output_dir=test_output_dir / 'metrics',
         population_windows=0
     )
 
-    metrics = ['gini', 'nakamoto_coefficient', 'entropy=1']
-    for metric in metrics:
-        output_file = test_output_dir / 'metrics' / f'{metric}.csv'
-        assert output_file.is_file()
+    output_file = test_output_dir / 'metrics' / 'output_clustered.csv'
+    assert output_file.is_file()
+    with open(output_file) as f:
+        reader = list(csv.reader(f))
+    header = reader[0]
+    gini_idx = header.index('gini')
+    nc_idx = header.index('nakamoto_coefficient')
+    ent_idx = header.index('entropy=1')
 
-        with open(output_file) as f:
-            lines = f.readlines()
-            assert len(lines) == 2
-            assert lines[0] == 'timeframe,sample_bitcoin\n'
-            assert lines[1] == '2010,\n'
+    rows_for_project = {row[1]: row for row in reader[1:] if row[0] == 'sample_bitcoin'}
+    assert rows_for_project['Feb-2018'][gini_idx] == '0.16666666666666666'
+    assert rows_for_project['Mar-2018'][gini_idx] == '0.0'
+    assert rows_for_project['Feb-2018'][nc_idx] == '1'
+    assert rows_for_project['Mar-2018'][nc_idx] == '1'
+    assert rows_for_project['Feb-2018'][ent_idx] == '1.5'
+    assert rows_for_project['Mar-2018'][ent_idx] == '0.0'
diff --git a/tests/test_end_to_end.py b/tests/test_end_to_end.py
@@ -11,6 +11,7 @@
 from consensus_decentralization.mappings.cardano_mapping import CardanoMapping
 from consensus_decentralization.helper import INTERIM_DIR, config
 import pytest
+import csv
 
 
 @pytest.fixture
@@ -28,8 +29,6 @@ def setup_and_cleanup():
     ledger_mapping['sample_cardano'] = CardanoMapping
     ledger_parser['sample_cardano'] = DummyParser
 
-    force_map_flag = config['force_map']
-    config['force_map'] = True
     config['clustering'] = True
 
     mapping_info_dir = pathlib.Path(__file__).resolve().parent.parent / 'mapping_information'
@@ -72,69 +71,21 @@ def setup_and_cleanup():
         except FileNotFoundError:
             pass
 
-    config['force_map'] = force_map_flag
-
 
 def test_end_to_end(setup_and_cleanup):
     test_output_dir, test_metrics_dir = setup_and_cleanup
 
-    main(
-        ['sample_bitcoin', 'sample_cardano'],
-        (datetime.date(2010, 1, 1), datetime.date(2010, 12, 31)),
-        estimation_window=None,
-        frequency=None,
-        interim_dir=test_output_dir,
-        results_dir=test_output_dir,
-        population_windows=0
-    )
-
-    expected_entropy = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2010-07-02,,\n'
-    ]
-    with open(test_metrics_dir / 'entropy=1.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_entropy[idx]
-
-    expected_gini = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2010-07-02,,\n'
-    ]
-    with open(test_metrics_dir / 'gini.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_gini[idx]
-
-    expected_nc = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2010-07-02,,\n'
-    ]
-    with open(test_metrics_dir / 'nakamoto_coefficient.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_nc[idx]
-
     main(
         ['sample_bitcoin', 'sample_cardano'],
         (datetime.date(2018, 2, 1), datetime.date(2018, 3, 31)),
         estimation_window=30,
         frequency=30,
         interim_dir=test_output_dir,
         results_dir=test_output_dir,
-        population_windows=0
+        population_windows=0,
+        force_map=True
     )
 
-    expected_entropy = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2018-02-15,1.5,\n',
-        '2018-03-17,0.0,\n',
-        ]
-    with open(test_metrics_dir / 'entropy=1.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_entropy[idx]
-
     # todo fix test (remake calculations from sample files given the new window/frequency)
     # expected_gini = [
     #     'timeframe,sample_bitcoin,sample_cardano\n',
@@ -146,14 +97,18 @@ def test_end_to_end(setup_and_cleanup):
     #     for idx, line in enumerate(lines):
     #         assert line == expected_gini[idx]
 
-    expected_nc = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2018-02-15,1,\n', '2018-03-17,1,\n'
-    ]
-    with open(test_metrics_dir / 'nakamoto_coefficient.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_nc[idx]
+    output_file = test_metrics_dir / 'output_clustered.csv'
+    assert output_file.is_file()
+    with open(output_file) as f:
+        rows = list(csv.reader(f))
+    header = rows[0]
+    ent_idx = header.index('entropy=1')
+    nc_idx = header.index('nakamoto_coefficient')
+
+    # build mapping ledger+date -> row
+    row_map = {(r[0], r[1]): r for r in rows[1:]}
+    assert row_map[('sample_bitcoin', '2018-02-15')][ent_idx] == '1.5'
+    assert row_map[('sample_bitcoin', '2018-02-15')][nc_idx] == '1'
 
     main(
         ['sample_bitcoin', 'sample_cardano'],
@@ -162,32 +117,19 @@ def test_end_to_end(setup_and_cleanup):
         frequency=31,
         interim_dir=test_output_dir,
         results_dir=test_output_dir,
-        population_windows=0
+        population_windows=0,
+        force_map=True
     )
 
-    expected_entropy = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2020-12-16,,1.9219280948873623\n'
-    ]
-    with open(test_metrics_dir / 'entropy=1.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_entropy[idx]
-
-    expected_gini = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2020-12-16,,0.15\n'
-    ]
-    with open(test_metrics_dir / 'gini.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_gini[idx]
-
-    expected_nc = [
-        'timeframe,sample_bitcoin,sample_cardano\n',
-        '2020-12-16,,2\n'
-    ]
-    with open(test_metrics_dir / 'nakamoto_coefficient.csv') as f:
-        lines = f.readlines()
-        for idx, line in enumerate(lines):
-            assert line == expected_nc[idx]
+    output_file = test_metrics_dir / 'output_clustered.csv'
+    assert output_file.is_file()
+    with open(output_file) as f:
+        rows = list(csv.reader(f))
+    header = rows[0]
+    ent_idx = header.index('entropy=1')
+    gini_idx = header.index('gini')
+    nc_idx = header.index('nakamoto_coefficient')
+    row_map = {(r[0], r[1]): r for r in rows[1:]}
+    assert row_map[('sample_cardano', '2020-12-16')][ent_idx] == '1.9219280948873623'
+    assert row_map[('sample_cardano', '2020-12-16')][gini_idx] == '0.15'
+    assert row_map[('sample_cardano', '2020-12-16')][nc_idx] == '2'