Fixing simulation results

martech-engineer · martech-engineer · commit cf18f04a2988 · 2025-10-07T11:53:58.000+02:00
diff --git a/results/deltas_Real_WWW_networkit.ipynb b/results/deltas_Real_WWW_networkit.ipynb
@@ -8,12 +8,12 @@
    },
    "outputs": [],
    "source": [
-    "# Google Drive Folder-Level PageRank Analysis\n",
-    "# Processes all CSV pairs in a mounted Google Drive folder\n",
+    "# Google Drive Folder-Level PageRank Analysis with REAL WWW Data\n",
+    "# Uses FineWeb dataset CSV with FROM and TO columns as WWW graph\n",
     "# Calculates overall averages across all files in the strategy\n",
     "\n",
     "# === INSTALLATION CELL (Run first) ===\n",
-    "# !pip install networkit pandas numpy\n",
+    "!pip install networkit pandas numpy\n",
     "\n",
     "# === MOUNT GOOGLE DRIVE ===\n",
     "from google.colab import drive\n",
@@ -33,12 +33,16 @@
     "# USER CONFIGURATION\n",
     "# ============================================\n",
     "BASELINE_PATH = \"/content/drive/MyDrive/WebKnoGraph/results/link_graph_edges.csv\"\n",
-    "COMPARISON_FOLDER = \"/content/drive/MyDrive/WebKnoGraph/results/expert_led/low_batches/\"\n",
-    "NUM_SIMULATIONS = 100\n",
+    "COMPARISON_FOLDER = (\n",
+    "    \"/content/drive/MyDrive/WebKnoGraph/results/automatic_led/high_batches/\"\n",
+    ")\n",
+    "\n",
+    "# NEW: Path to FineWeb WWW graph CSV\n",
+    "FINEWEB_WWW_PATH = \"/content/drive/MyDrive/WebKnoGraph/results/fineweb_500k_pages.csv\"\n",
+    "\n",
+    "NUM_SIMULATIONS = 10\n",
     "\n",
     "# Simulation Parameters\n",
-    "TOTAL_NODES_WWW = 100000\n",
-    "EDGES_PER_NEW_NODE = 2\n",
     "MIN_CONNECTIONS = 5\n",
     "MAX_CONNECTIONS = 50\n",
     "PAGERANK_TOLERANCE = 1e-6\n",
@@ -50,15 +54,17 @@
     "_www_graph_cache = None\n",
     "\n",
     "\n",
-    "def load_graph_from_csv_networkit(file_path):\n",
+    "def load_graph_from_csv_networkit(file_path, graph_name=\"graph\"):\n",
     "    \"\"\"Load graph from CSV file.\"\"\"\n",
     "    try:\n",
+    "        print(f\"  Loading {graph_name} from {os.path.basename(file_path)}...\")\n",
     "        df = pd.read_csv(file_path, usecols=[\"FROM\", \"TO\"])\n",
     "        df = df.dropna()\n",
     "        df[\"FROM\"] = df[\"FROM\"].astype(str)\n",
     "        df[\"TO\"] = df[\"TO\"].astype(str)\n",
     "\n",
     "        if len(df) == 0:\n",
+    "            print(f\"  ERROR: No valid edges found in {file_path}\")\n",
     "            return None, None, None\n",
     "\n",
     "        from_urls = df[\"FROM\"].values\n",
@@ -70,77 +76,88 @@
     "        for src_url, tgt_url in zip(from_urls, to_urls):\n",
     "            g.addEdge(url_to_idx[src_url], url_to_idx[tgt_url])\n",
     "\n",
+    "        print(f\"    Loaded: {len(all_urls):,} nodes, {len(df):,} edges\")\n",
     "        return g, all_urls, url_to_idx\n",
     "    except Exception as e:\n",
-    "        print(f\"  Error loading {file_path}: {str(e)}\")\n",
+    "        print(f\"  ERROR loading {file_path}: {str(e)}\")\n",
     "        return None, None, None\n",
     "\n",
     "\n",
-    "def create_www_graph_networkit(n_nodes, m_edges, seed=42):\n",
-    "    \"\"\"Create WWW graph with caching.\"\"\"\n",
+    "def load_www_graph_networkit(www_csv_path):\n",
+    "    \"\"\"Load REAL WWW graph from FineWeb dataset with caching.\"\"\"\n",
     "    global _www_graph_cache\n",
     "\n",
-    "    cache_key = (n_nodes, m_edges, seed)\n",
-    "    if _www_graph_cache is not None and _www_graph_cache[0] == cache_key:\n",
+    "    if _www_graph_cache is not None and _www_graph_cache[0] == www_csv_path:\n",
+    "        print(\"  Using cached WWW graph\")\n",
     "        cached_graph = _www_graph_cache[1]\n",
     "        new_graph = nk.Graph(\n",
     "            n=cached_graph.numberOfNodes(), weighted=False, directed=True\n",
     "        )\n",
     "        for u, v in cached_graph.iterEdges():\n",
     "            new_graph.addEdge(u, v)\n",
-    "        return new_graph\n",
+    "        return new_graph, _www_graph_cache[2]\n",
     "\n",
-    "    nk.setSeed(seed, False)\n",
-    "    generator = nk.generators.BarabasiAlbertGenerator(\n",
-    "        k=m_edges, nMax=n_nodes, n0=m_edges\n",
+    "    print(\"\\nLoading REAL WWW graph from FineWeb dataset...\")\n",
+    "    www_graph, www_nodes, www_url_mapping = load_graph_from_csv_networkit(\n",
+    "        www_csv_path, graph_name=\"WWW graph\"\n",
     "    )\n",
-    "    www_graph = generator.generate()\n",
     "\n",
+    "    if www_graph is None:\n",
+    "        raise ValueError(f\"Failed to load WWW graph from {www_csv_path}\")\n",
+    "\n",
+    "    # Cache the graph\n",
     "    cached_graph = nk.Graph(n=www_graph.numberOfNodes(), weighted=False, directed=True)\n",
     "    for u, v in www_graph.iterEdges():\n",
     "        cached_graph.addEdge(u, v)\n",
-    "    _www_graph_cache = (cache_key, cached_graph)\n",
-    "    return www_graph\n",
+    "    _www_graph_cache = (www_csv_path, cached_graph, www_nodes)\n",
+    "\n",
+    "    print(f\"  WWW graph cached successfully\")\n",
+    "    return www_graph, www_nodes\n",
     "\n",
     "\n",
     "def process_configuration_networkit(\n",
-    "    www_graph, kalicube_edges, kalicube_nodes, kalicube_url_mapping\n",
+    "    www_graph, www_nodes, kalicube_edges, kalicube_nodes, kalicube_url_mapping\n",
     "):\n",
     "    \"\"\"Process configuration and calculate PageRank.\"\"\"\n",
     "    kalicube_offset = www_graph.numberOfNodes()\n",
     "    n_kalicube = len(kalicube_nodes)\n",
+    "    n_www = www_graph.numberOfNodes()\n",
     "\n",
-    "    merged_graph = nk.Graph(n=www_graph.numberOfNodes(), weighted=False, directed=True)\n",
+    "    # Create merged graph\n",
+    "    merged_graph = nk.Graph(n=n_www, weighted=False, directed=True)\n",
     "    for u, v in www_graph.iterEdges():\n",
     "        merged_graph.addEdge(u, v)\n",
     "\n",
+    "    # Add Kalicube nodes\n",
     "    for _ in range(n_kalicube):\n",
     "        merged_graph.addNode()\n",
     "\n",
+    "    # Add Kalicube internal edges\n",
     "    if kalicube_edges:\n",
     "        for src, tgt in kalicube_edges:\n",
     "            merged_graph.addEdge(src + kalicube_offset, tgt + kalicube_offset)\n",
     "\n",
-    "    n_www_sample = min(MIN_CONNECTIONS, TOTAL_NODES_WWW)\n",
-    "    n_kalicube_sample = min(MIN_CONNECTIONS, len(kalicube_nodes))\n",
+    "    # Connect WWW to Kalicube\n",
+    "    n_www_sample = min(MAX_CONNECTIONS, n_www)\n",
+    "    n_kalicube_sample = min(MAX_CONNECTIONS, n_kalicube)\n",
     "\n",
-    "    www_nodes_sample = np.random.choice(\n",
-    "        TOTAL_NODES_WWW, size=n_www_sample, replace=False\n",
-    "    )\n",
+    "    www_nodes_sample = np.random.choice(n_www, size=n_www_sample, replace=False)\n",
     "    kalicube_indices = np.random.choice(\n",
-    "        len(kalicube_nodes), size=n_kalicube_sample, replace=False\n",
+    "        n_kalicube, size=n_kalicube_sample, replace=False\n",
     "    )\n",
     "\n",
     "    for www_node_id, kalicube_idx in zip(www_nodes_sample, kalicube_indices):\n",
     "        kalicube_node_id = kalicube_idx + kalicube_offset\n",
     "        merged_graph.addEdge(www_node_id, kalicube_node_id)\n",
     "\n",
+    "    # Calculate PageRank\n",
     "    pagerank_algo = nk.centrality.PageRank(\n",
     "        merged_graph, damp=0.85, tol=PAGERANK_TOLERANCE\n",
     "    )\n",
     "    pagerank_algo.run()\n",
     "    pagerank_scores = pagerank_algo.scores()\n",
     "\n",
+    "    # Extract Kalicube PageRank scores\n",
     "    pagerank_dict = {}\n",
     "    for i, url in enumerate(kalicube_nodes):\n",
     "        vertex_id = i + kalicube_offset\n",
@@ -151,6 +168,8 @@
     "\n",
     "def run_single_simulation_networkit(\n",
     "    simulation_id,\n",
+    "    www_graph,\n",
+    "    www_nodes,\n",
     "    kalicube_old_edges,\n",
     "    kalicube_new_edges,\n",
     "    kalicube_nodes_old,\n",
@@ -163,18 +182,25 @@
     "    np.random.seed(sim_seed)\n",
     "    random.seed(sim_seed)\n",
     "\n",
-    "    www_graph = create_www_graph_networkit(\n",
-    "        TOTAL_NODES_WWW, EDGES_PER_NEW_NODE, sim_seed\n",
-    "    )\n",
-    "\n",
+    "    # Calculate PageRank for old configuration\n",
     "    pagerank_old_dict = process_configuration_networkit(\n",
-    "        www_graph, kalicube_old_edges, kalicube_nodes_old, kalicube_url_mapping_old\n",
+    "        www_graph,\n",
+    "        www_nodes,\n",
+    "        kalicube_old_edges,\n",
+    "        kalicube_nodes_old,\n",
+    "        kalicube_url_mapping_old,\n",
     "    )\n",
     "\n",
+    "    # Calculate PageRank for new configuration\n",
     "    pagerank_new_dict = process_configuration_networkit(\n",
-    "        www_graph, kalicube_new_edges, kalicube_nodes_new, kalicube_url_mapping_new\n",
+    "        www_graph,\n",
+    "        www_nodes,\n",
+    "        kalicube_new_edges,\n",
+    "        kalicube_nodes_new,\n",
+    "        kalicube_url_mapping_new,\n",
     "    )\n",
     "\n",
+    "    # Compare results\n",
     "    old_urls = set(pagerank_old_dict.keys())\n",
     "    new_urls = set(pagerank_new_dict.keys())\n",
     "    common_urls = old_urls & new_urls\n",
@@ -200,19 +226,19 @@
     "    }\n",
     "\n",
     "\n",
-    "def analyze_csv_pair(old_csv_path, new_csv_path):\n",
+    "def analyze_csv_pair(www_graph, www_nodes, old_csv_path, new_csv_path):\n",
     "    \"\"\"Analyze a pair of CSV files.\"\"\"\n",
     "    print(f\"\\nAnalyzing: {os.path.basename(new_csv_path)}\")\n",
     "\n",
     "    kalicube_graph_old, kalicube_nodes_old, kalicube_url_mapping_old = (\n",
-    "        load_graph_from_csv_networkit(old_csv_path)\n",
+    "        load_graph_from_csv_networkit(old_csv_path, \"baseline Kalicube\")\n",
     "    )\n",
     "    if kalicube_graph_old is None:\n",
     "        print(f\"  Failed to load old graph\")\n",
     "        return None\n",
     "\n",
     "    kalicube_graph_new, kalicube_nodes_new, kalicube_url_mapping_new = (\n",
-    "        load_graph_from_csv_networkit(new_csv_path)\n",
+    "        load_graph_from_csv_networkit(new_csv_path, \"comparison Kalicube\")\n",
     "    )\n",
     "    if kalicube_graph_new is None:\n",
     "        print(f\"  Failed to load new graph\")\n",
@@ -230,6 +256,8 @@
     "    for sim_id in range(NUM_SIMULATIONS):\n",
     "        result = run_single_simulation_networkit(\n",
     "            sim_id,\n",
+    "            www_graph,\n",
+    "            www_nodes,\n",
     "            kalicube_old_edges,\n",
     "            kalicube_new_edges,\n",
     "            kalicube_nodes_old,\n",
@@ -256,7 +284,7 @@
     "        \"avg_mean_delta_pct\": avg_mean,\n",
     "        \"avg_min_delta_pct\": avg_min,\n",
     "        \"avg_max_delta_pct\": avg_max,\n",
-    "        \"sim_results\": sim_results,  # Store individual simulation results\n",
+    "        \"sim_results\": sim_results,\n",
     "    }\n",
     "\n",
     "\n",
@@ -283,42 +311,49 @@
     "\n",
     "if __name__ == \"__main__\":\n",
     "    print(\"=\" * 70)\n",
-    "    print(\"FOLDER-LEVEL PAGERANK ANALYSIS\")\n",
+    "    print(\"PAGERANK ANALYSIS WITH REAL WWW DATA (FineWeb)\")\n",
     "    print(\"=\" * 70)\n",
     "\n",
+    "    # Validate paths\n",
     "    if not os.path.exists(BASELINE_PATH):\n",
     "        print(f\"\\nERROR: Baseline file not found: {BASELINE_PATH}\")\n",
     "        exit(1)\n",
     "\n",
-    "    print(f\"\\nBaseline: {os.path.basename(BASELINE_PATH)}\")\n",
+    "    if not os.path.exists(FINEWEB_WWW_PATH):\n",
+    "        print(f\"\\nERROR: FineWeb WWW file not found: {FINEWEB_WWW_PATH}\")\n",
+    "        exit(1)\n",
     "\n",
     "    if not os.path.exists(COMPARISON_FOLDER):\n",
     "        print(f\"\\nERROR: Comparison folder not found: {COMPARISON_FOLDER}\")\n",
     "        exit(1)\n",
     "\n",
+    "    print(f\"\\nWWW Graph Source: {os.path.basename(FINEWEB_WWW_PATH)}\")\n",
+    "    print(f\"Baseline: {os.path.basename(BASELINE_PATH)}\")\n",
+    "\n",
+    "    # Load REAL WWW graph (only once, then cached)\n",
+    "    www_graph, www_nodes = load_www_graph_networkit(FINEWEB_WWW_PATH)\n",
+    "\n",
+    "    # Find comparison files\n",
     "    csv_files = sorted([f for f in os.listdir(COMPARISON_FOLDER) if f.endswith(\".csv\")])\n",
     "\n",
     "    if len(csv_files) == 0:\n",
     "        print(f\"\\nERROR: No CSV files found in {COMPARISON_FOLDER}\")\n",
     "        exit(1)\n",
     "\n",
-    "    print(f\"Found {len(csv_files)} CSV files in comparison folder\")\n",
-    "    print(f\"Analyzing {len(csv_files)} comparison files\")\n",
+    "    print(f\"\\nFound {len(csv_files)} CSV files in comparison folder\")\n",
     "    print(\"=\" * 70)\n",
     "\n",
     "    results = []\n",
-    "    all_simulation_results = []  # Collect all simulation results across all files\n",
+    "    all_simulation_results = []\n",
     "\n",
     "    for new_csv_filename in csv_files:\n",
     "        new_csv_path = os.path.join(COMPARISON_FOLDER, new_csv_filename)\n",
-    "        result = analyze_csv_pair(BASELINE_PATH, new_csv_path)\n",
+    "        result = analyze_csv_pair(www_graph, www_nodes, BASELINE_PATH, new_csv_path)\n",
     "\n",
     "        if result is not None and validate_results(result):\n",
     "            results.append(result)\n",
-    "            all_simulation_results.extend(\n",
-    "                result[\"sim_results\"]\n",
-    "            )  # Aggregate simulation results\n",
-    "            print(f\"  Valid results obtained\")\n",
+    "            all_simulation_results.extend(result[\"sim_results\"])\n",
+    "            print(f\"  ✓ Valid results obtained\")\n",
     "\n",
     "    print(\"\\n\" + \"=\" * 70)\n",
     "    print(\"INDIVIDUAL FILE RESULTS\")\n",
@@ -341,7 +376,7 @@
     "        print(\"-\" * 90)\n",
     "        print(f\"\\nSuccessfully analyzed {len(results)}/{len(csv_files)} files\")\n",
     "\n",
-    "    # Calculate overall averages across all simulations\n",
+    "    # Calculate overall averages\n",
     "    if len(all_simulation_results) > 0:\n",
     "        print(\"\\n\" + \"=\" * 70)\n",
     "        print(\"OVERALL AVERAGES\")\n",
@@ -384,4 +419,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 0
-}
+}