Introduce GraphSAGE node embedding algorithm

JohT · JohT · commit bca582e2b4fa · 2026-01-05T21:30:42.000+01:00
diff --git a/cypher/Node_Embeddings/Node_Embeddings_0b_Prepare_Degree.cypher b/cypher/Node_Embeddings/Node_Embeddings_0b_Prepare_Degree.cypher
@@ -0,0 +1,28 @@
+// Node Embeddings 0b: Prepare: Calculate Degree Property.
+
+CALL gds.degree.mutate(
+ $dependencies_projection + '-cleaned', {
+   orientation: 'UNDIRECTED'
+  ,relationshipWeightProperty: CASE $dependencies_projection_weight_property WHEN '' THEN null ELSE $dependencies_projection_weight_property END
+  ,mutateProperty: 'degreeForNodeEmbeddings'
+})
+ YIELD nodePropertiesWritten
+      ,preProcessingMillis
+      ,computeMillis
+      ,mutateMillis
+      ,postProcessingMillis
+      ,centralityDistribution
+RETURN nodePropertiesWritten
+      ,preProcessingMillis
+      ,computeMillis
+      ,mutateMillis
+      ,postProcessingMillis
+      ,centralityDistribution.min
+      ,centralityDistribution.mean
+      ,centralityDistribution.max
+      ,centralityDistribution.p50
+      ,centralityDistribution.p75
+      ,centralityDistribution.p90
+      ,centralityDistribution.p95
+      ,centralityDistribution.p99
+      ,centralityDistribution.p999
diff --git a/cypher/Node_Embeddings/Node_Embeddings_0c_Drop_Model.cypher b/cypher/Node_Embeddings/Node_Embeddings_0c_Drop_Model.cypher
@@ -0,0 +1,21 @@
+// Node Embeddings 0b: Prepare: Calculate Degree Property.
+
+CALL gds.model.drop($dependencies_projection + '-graphSAGE', false)
+YIELD modelName,
+      modelType,
+      modelInfo,
+      creationTime,
+      trainConfig,
+      graphSchema,
+      loaded,
+      stored,
+      published
+RETURN modelName,
+       modelType,
+       modelInfo,
+       creationTime,
+       trainConfig,
+       graphSchema,
+       loaded,
+       stored,
+       published
diff --git a/cypher/Node_Embeddings/Node_Embeddings_4b_GraphSAGE_Train.cypher b/cypher/Node_Embeddings/Node_Embeddings_4b_GraphSAGE_Train.cypher
@@ -0,0 +1,27 @@
+// Node Embeddings 4c using GraphSAGE (Graph Neural Networks): Train. Requires: "Node_Embeddings_0b_Prepare_Degree.cypher".
+
+CALL gds.beta.graphSage.train(
+ $dependencies_projection + '-cleaned', {
+      modelName: $dependencies_projection + '-graphSAGE'
+     ,featureProperties: ['degreeForNodeEmbeddings']
+     ,embeddingDimension: toInteger($dependencies_projection_embedding_dimension)
+     ,relationshipWeightProperty: CASE $dependencies_projection_weight_property WHEN '' THEN null ELSE $dependencies_projection_weight_property END
+     ,batchSize: 64
+     ,activationFunction: 'relu'
+     ,sampleSizes: [25, 20, 20, 10]
+     //,aggregator: 'pool'
+     //,epochs: 10
+     //,penaltyL2: 0.0000001
+     //,tolerance: 0.0001
+     //,learningRate: 0.1
+     //,searchDepth: 5
+     ,randomSeed: 47
+  }
+)
+YIELD modelInfo AS info, trainMillis
+RETURN
+  info.modelName           AS modelName,
+  info.metrics.didConverge AS didConverge,
+  info.metrics.ranEpochs   AS ranEpochs,
+  info.metrics.epochLosses AS epochLosses,
+  trainMillis              AS trainingTimeMilliseconds
diff --git a/cypher/Node_Embeddings/Node_Embeddings_4d_GraphSAGE_Stream.cypher b/cypher/Node_Embeddings/Node_Embeddings_4d_GraphSAGE_Stream.cypher
@@ -0,0 +1,22 @@
+// Node Embeddings 4d using GraphSAGE: Stream. Requires "Add_file_name and_extension.cypher".
+
+CALL gds.beta.graphSage.stream(
+ $dependencies_projection + '-cleaned', {
+      modelName: $dependencies_projection + '-graphSAGE'
+  }
+)
+YIELD nodeId, embedding
+ WITH gds.util.asNode(nodeId) AS codeUnit
+     ,embedding
+OPTIONAL MATCH (artifact:Java:Artifact)-[:CONTAINS]->(codeUnit)
+   WITH *, artifact.name AS artifactName
+OPTIONAL MATCH (projectRoot:Directory)<-[:HAS_ROOT]-(proj:TS:Project)-[:CONTAINS]->(codeUnit)
+   WITH *, last(split(projectRoot.absoluteFileName, '/')) AS projectName   
+ RETURN DISTINCT 
+        coalesce(codeUnit.fqn, codeUnit.globalFqn, codeUnit.fileName, codeUnit.signature, codeUnit.name) AS codeUnitName
+       ,codeUnit.name                               AS shortCodeUnitName
+       ,elementId(codeUnit)                         AS nodeElementId
+       ,coalesce(artifactName, projectName)         AS projectName
+       ,coalesce(codeUnit.communityLeidenId, 0)     AS communityId
+       ,coalesce(codeUnit.centralityPageRank, 0.01) AS centrality
+       ,embedding
diff --git a/jupyter/NodeEmbeddingsJava.ipynb b/jupyter/NodeEmbeddingsJava.ipynb
@@ -233,6 +233,52 @@
     "    return embeddings"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "48cb52c6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def create_node_embeddings_with_GraphSAGE(parameters: dict) -> pd.DataFrame: \n",
+    "    \"\"\"\n",
+    "    Creates an in-memory Graph projection by calling \"create_undirected_projection\", \n",
+    "    enriches it with a degree centrality property for every node, trains GraphSAGE \n",
+    "    and returns the resulting node embeddings as DataFrame.\n",
+    "    \n",
+    "    parameters\n",
+    "    ----------\n",
+    "    dependencies_projection : str\n",
+    "        The name prefix for the in-memory projection for dependencies. Example: \"java-package-embeddings-notebook\"\n",
+    "    dependencies_projection_node : str\n",
+    "        The label of the nodes that will be used for the projection. Example: \"Package\"\n",
+    "    dependencies_projection_weight_property : str\n",
+    "        The name of the node property that contains the dependency weight. Example: \"weight25PercentInterfaces\"\n",
+    "    dependencies_projection_embedding_dimension : str\n",
+    "        The number of the dimensions and therefore size of the resulting array of floating point numbers\n",
+    "    \"\"\"\n",
+    "    \n",
+    "    is_data_available=create_undirected_projection(parameters)\n",
+    "    \n",
+    "    if not is_data_available:\n",
+    "        print(\"No projected data for node embeddings calculation available\")\n",
+    "        empty_result = pd.DataFrame(columns=[\"codeUnitName\", \"shortCodeUnitName\", 'projectName', 'communityId', 'centrality', 'embedding'])\n",
+    "        return empty_result\n",
+    "    \n",
+    "    existing_embeddings_query_filename=\"../cypher/Node_Embeddings/Node_Embeddings_0a_Query_Calculated.cypher\"\n",
+    "    embeddings=query_cypher_to_data_frame(existing_embeddings_query_filename, parameters)\n",
+    "    if embeddings.empty:\n",
+    "        query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0b_Prepare_Degree.cypher\", parameters)\n",
+    "        query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0c_Drop_Model.cypher\", parameters)\n",
+    "        display(query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4b_GraphSAGE_Train.cypher\", parameters))\n",
+    "        embeddings=query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4d_GraphSAGE_Stream.cypher\", parameters)\n",
+    "    else:\n",
+    "        print(\"The results have been provided by the query filename: \" + existing_embeddings_query_filename)\n",
+    "    \n",
+    "    display(embeddings.head()) # Display the first entries of the table\n",
+    "    return embeddings"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -696,6 +742,34 @@
     "plot_2d_node_embeddings(embeddings_node2vec, get_plot_title(\"Java Packages\", \"node2vec\", scores_node2vec))"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "873d6a4e",
+   "metadata": {},
+   "source": [
+    "### 1.6 Node Embeddings for Java Packages using GraphSAGE"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f25a062f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "java_package_embeddings_parameters={\n",
+    "    \"dependencies_projection\": \"java-package-embeddings-notebook\",\n",
+    "    \"dependencies_projection_node\": \"Package\",\n",
+    "    \"dependencies_projection_weight_property\": \"weight25PercentInterfaces\",\n",
+    "    \"dependencies_projection_write_property\": \"embeddingsGraphSAGE\",\n",
+    "    \"dependencies_projection_embedding_dimension\":\"32\"\n",
+    "}\n",
+    "embeddings_graphSAGE= create_node_embeddings_with_GraphSAGE(java_package_embeddings_parameters)\n",
+    "embeddings_graphSAGE = prepare_node_embeddings_for_2d_visualization(embeddings_graphSAGE)\n",
+    "scores_graphSAGE = CommunityScores.calculate(embeddings_graphSAGE)\n",
+    "plot_2d_node_embeddings(embeddings_graphSAGE, get_plot_title(\"Java Packages\", \"GraphSAGE\", scores_graphSAGE))"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "b9a5d57b",
@@ -714,14 +788,38 @@
    "outputs": [],
    "source": [
     "plot_all_2d_node_embeddings_in_grid(\n",
-    "    embeddings=[embeddings_fastRP, embeddings_hashGNN, embeddings_node2vec],\n",
+    "    embeddings=[embeddings_fastRP, embeddings_hashGNN, embeddings_node2vec, embeddings_graphSAGE],\n",
     "    titles=[\n",
     "        get_plot_title(\"Java Packages\", \"Fast Random Projection\", scores_fastRP),\n",
     "        get_plot_title(\"Java Packages\", \"HashGNN\", scores_hashGNN),\n",
     "        get_plot_title(\"Java Packages\", \"node2vec\", scores_node2vec),\n",
+    "        get_plot_title(\"Java Packages\", \"GraphSAGE\", scores_graphSAGE),\n",
     "    ],\n",
     ")"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6d55b6f2",
+   "metadata": {},
+   "source": [
+    "#### Interpreting Node Embedding Results\n",
+    "\n",
+    "##### Summary of Observations\n",
+    "\n",
+    "- **FastRP** and **node2vec** show clear, well-separated clusters\n",
+    "- **HashGNN** and **GraphSAGE** produce more diffuse embeddings\n",
+    "- Silhouette scores are high for FastRP / node2vec and low for HashGNN / GraphSAGE\n",
+    "\n",
+    "These differences are expected and stem from the **fundamentally different objectives** of the algorithms.\n",
+    "\n",
+    "##### Key Takeaways\n",
+    "\n",
+    "- **FastRP and node2vec** are well-suited for **community discovery and visualization**\n",
+    "- **HashGNN** is best viewed as a **fast structural fingerprint**, not a clustering embedding\n",
+    "- **GraphSAGE** requires meaningful node features or labels and performs poorly in dense, feature-poor settings\n",
+    "- Poor silhouette scores for HashGNN and GraphSAGE are **expected and theoretically consistent**"
+   ]
   }
  ],
  "metadata": {
diff --git a/jupyter/NodeEmbeddingsTypescript.ipynb b/jupyter/NodeEmbeddingsTypescript.ipynb
@@ -233,6 +233,52 @@
     "    return embeddings"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "e2b52e51",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def create_node_embeddings_with_GraphSAGE(parameters: dict) -> pd.DataFrame: \n",
+    "    \"\"\"\n",
+    "    Creates an in-memory Graph projection by calling \"create_undirected_projection\", \n",
+    "    enriches it with a degree centrality property for every node, trains GraphSAGE \n",
+    "    and returns the resulting node embeddings as DataFrame.\n",
+    "    \n",
+    "    parameters\n",
+    "    ----------\n",
+    "    dependencies_projection : str\n",
+    "        The name prefix for the in-memory projection for dependencies. Example: \"java-package-embeddings-notebook\"\n",
+    "    dependencies_projection_node : str\n",
+    "        The label of the nodes that will be used for the projection. Example: \"Package\"\n",
+    "    dependencies_projection_weight_property : str\n",
+    "        The name of the node property that contains the dependency weight. Example: \"weight25PercentInterfaces\"\n",
+    "    dependencies_projection_embedding_dimension : str\n",
+    "        The number of the dimensions and therefore size of the resulting array of floating point numbers\n",
+    "    \"\"\"\n",
+    "    \n",
+    "    is_data_available=create_undirected_projection(parameters)\n",
+    "    \n",
+    "    if not is_data_available:\n",
+    "        print(\"No projected data for node embeddings calculation available\")\n",
+    "        empty_result = pd.DataFrame(columns=[\"codeUnitName\", \"shortCodeUnitName\", 'projectName', 'communityId', 'centrality', 'embedding'])\n",
+    "        return empty_result\n",
+    "    \n",
+    "    existing_embeddings_query_filename=\"../cypher/Node_Embeddings/Node_Embeddings_0a_Query_Calculated.cypher\"\n",
+    "    embeddings=query_cypher_to_data_frame(existing_embeddings_query_filename, parameters)\n",
+    "    if embeddings.empty:\n",
+    "        query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0b_Prepare_Degree.cypher\", parameters)\n",
+    "        query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0c_Drop_Model.cypher\", parameters)\n",
+    "        display(query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4b_GraphSAGE_Train.cypher\", parameters))\n",
+    "        embeddings=query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4d_GraphSAGE_Stream.cypher\", parameters)\n",
+    "    else:\n",
+    "        print(\"The results have been provided by the query filename: \" + existing_embeddings_query_filename)\n",
+    "    \n",
+    "    display(embeddings.head()) # Display the first entries of the table\n",
+    "    return embeddings"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -699,6 +745,34 @@
     "plot_2d_node_embeddings(embeddings_node2vec, get_plot_title(\"TypeScript Modules\", \"node2vec\", scores_node2vec))"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "059d162c",
+   "metadata": {},
+   "source": [
+    "### 1.6 Node Embeddings for Java Packages using GraphSAGE"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "2c5664b9",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "typescript_module_embeddings_parameters={\n",
+    "    \"dependencies_projection\": \"typescript-module-embeddings-notebook\",\n",
+    "    \"dependencies_projection_node\": \"Module\",\n",
+    "    \"dependencies_projection_weight_property\": \"lowCouplingElement25PercentWeight\",\n",
+    "    \"dependencies_projection_write_property\": \"embeddingsGraphSAGE\",\n",
+    "    \"dependencies_projection_embedding_dimension\":\"32\"\n",
+    "}\n",
+    "embeddings_graphSAGE= create_node_embeddings_with_GraphSAGE(typescript_module_embeddings_parameters)\n",
+    "embeddings_graphSAGE = prepare_node_embeddings_for_2d_visualization(embeddings_graphSAGE)\n",
+    "scores_graphSAGE = CommunityScores.calculate(embeddings_graphSAGE)\n",
+    "plot_2d_node_embeddings(embeddings_graphSAGE, get_plot_title(\"TypeScript Modules\", \"GraphSAGE\", scores_graphSAGE))"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "c5c73bd3",
@@ -717,14 +791,38 @@
    "outputs": [],
    "source": [
     "plot_all_2d_node_embeddings_in_grid(\n",
-    "    embeddings=[embeddings_fastRP, embeddings_hashGNN, embeddings_node2vec],\n",
+    "    embeddings=[embeddings_fastRP, embeddings_hashGNN, embeddings_node2vec, embeddings_graphSAGE],\n",
     "    titles=[\n",
     "        get_plot_title(\"TypeScript Modules\", \"Fast Random Projection\", scores_fastRP),\n",
     "        get_plot_title(\"TypeScript Modules\", \"HashGNN\", scores_hashGNN),\n",
     "        get_plot_title(\"TypeScript Modules\", \"node2vec\", scores_node2vec),\n",
+    "        get_plot_title(\"TypeScript Modules\", \"GraphSAGE\", scores_graphSAGE),\n",
     "    ],\n",
     ")"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "75acc17d",
+   "metadata": {},
+   "source": [
+    "#### Interpreting Node Embedding Results\n",
+    "\n",
+    "##### Summary of Observations\n",
+    "\n",
+    "- **FastRP** and **node2vec** show clear, well-separated clusters\n",
+    "- **HashGNN** and **GraphSAGE** produce more diffuse embeddings\n",
+    "- Silhouette scores are high for FastRP / node2vec and low for HashGNN / GraphSAGE\n",
+    "\n",
+    "These differences are expected and stem from the **fundamentally different objectives** of the algorithms.\n",
+    "\n",
+    "##### Key Takeaways\n",
+    "\n",
+    "- **FastRP and node2vec** are well-suited for **community discovery and visualization**\n",
+    "- **HashGNN** is best viewed as a **fast structural fingerprint**, not a clustering embedding\n",
+    "- **GraphSAGE** requires meaningful node features or labels and performs poorly in dense, feature-poor settings\n",
+    "- Poor silhouette scores for HashGNN and GraphSAGE are **expected and theoretically consistent**"
+   ]
   }
  ],
  "metadata": {