JohT
diff --git a/‎jupyter/NodeEmbeddingsJava.ipynb‎
Lines changed: 101 additions & 34 deletions b/‎jupyter/NodeEmbeddingsJava.ipynb‎
Lines changed: 101 additions & 34 deletions
@@ -185,6 +185,54 @@
     "    return True"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "25a0fbd3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_projected_graph_statistics(projection_name: str) -> pd.DataFrame:\n",
+    "    \"\"\"\n",
+    "    Returns the projection statistics for the given parameters.\n",
+    "    Parameters\n",
+    "    ----------\n",
+    "    projection_name : str\n",
+    "        The name prefix for the in-memory projection for dependencies. Example: \"java-package-embeddings-notebook\"\n",
+    "    \"\"\"\n",
+    "\n",
+    "    parameters = dict(\n",
+    "        dependencies_projection=projection_name,\n",
+    "    )\n",
+    "    return query_cypher_to_data_frame(\"../cypher/Dependencies_Projection/Dependencies_12_Get_Projection_Statistics.cypher\", parameters)\n",
+    "\n",
+    "\n",
+    "def get_projected_graph_node_count(projection_name: str) -> int:\n",
+    "    \"\"\"\n",
+    "    Returns the number of nodes in the projected graph.\n",
+    "    Parameters\n",
+    "    ----------\n",
+    "    projection_name : str\n",
+    "        The name prefix for the in-memory projection for dependencies. Example: \"java-package-embeddings-notebook\"\n",
+    "    \"\"\"\n",
+    "\n",
+    "    graph_statistics = get_projected_graph_statistics(projection_name)\n",
+    "    if graph_statistics.empty:\n",
+    "        return 0\n",
+    "    return graph_statistics[\"nodeCount\"].values[0]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "511cb6ea",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def empty_embeddings() -> pd.DataFrame:\n",
+    "    return pd.DataFrame(columns=[\"codeUnitName\", \"shortCodeUnitName\", 'projectName', 'communityId', 'centrality', 'embedding', 'x', 'y'])"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -218,14 +266,14 @@
     "        The name of the node property that contains the dependency weight. Example: \"weight25PercentInterfaces\"\n",
     "    dependencies_projection_embedding_dimension : str\n",
     "        The number of the dimensions and therefore size of the resulting array of floating point numbers\n",
+    "    dependencies_projection_write_property : str\n",
+    "        The name of the node property where the resulting embeddings will be stored. Example: \"embedding\n",
     "    \"\"\"\n",
     "    \n",
-    "    is_data_available=create_undirected_projection(parameters)\n",
-    "    \n",
-    "    if not is_data_available:\n",
+    "    node_count = get_projected_graph_node_count(parameters[\"dependencies_projection\"])\n",
+    "    if node_count <= 0:\n",
     "        print(\"No projected data for node embeddings calculation available\")\n",
-    "        empty_result = pd.DataFrame(columns=[\"codeUnitName\", \"shortCodeUnitName\", 'projectName', 'communityId', 'centrality', 'embedding'])\n",
-    "        return empty_result\n",
+    "        return empty_embeddings()\n",
     "\n",
     "    existing_embeddings_query_filename=\"../cypher/Node_Embeddings/Node_Embeddings_0a_Query_Calculated.cypher\"\n",
     "    embeddings = query_first_non_empty_cypher_to_data_frame(existing_embeddings_query_filename, cypher_file_name, parameters=parameters)\n",
@@ -258,22 +306,19 @@
     "        The number of the dimensions and therefore size of the resulting array of floating point numbers\n",
     "    \"\"\"\n",
     "    \n",
-    "    is_data_available=create_undirected_projection(parameters)\n",
-    "    \n",
-    "    if not is_data_available:\n",
+    "    node_count = get_projected_graph_node_count(parameters[\"dependencies_projection\"])\n",
+    "    if node_count <= 0:\n",
     "        print(\"No projected data for node embeddings calculation available\")\n",
-    "        empty_result = pd.DataFrame(columns=[\"codeUnitName\", \"shortCodeUnitName\", 'projectName', 'communityId', 'centrality', 'embedding'])\n",
-    "        return empty_result\n",
+    "        return empty_embeddings()\n",
     "    \n",
-    "    existing_embeddings_query_filename=\"../cypher/Node_Embeddings/Node_Embeddings_0a_Query_Calculated.cypher\"\n",
-    "    embeddings=query_cypher_to_data_frame(existing_embeddings_query_filename, parameters)\n",
-    "    if embeddings.empty:\n",
-    "        query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0b_Prepare_Degree.cypher\", parameters)\n",
-    "        query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0c_Drop_Model.cypher\", parameters)\n",
-    "        display(query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4b_GraphSAGE_Train.cypher\", parameters))\n",
-    "        embeddings=query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4d_GraphSAGE_Stream.cypher\", parameters)\n",
-    "    else:\n",
-    "        print(\"The results have been provided by the query filename: \" + existing_embeddings_query_filename)\n",
+    "    if node_count > 500:\n",
+    "        print(\"GraphSAGE node embeddings training will be skipped for \" + str(node_count) + \" (>500) nodes, since it is computationally expensive and not eagerly needed for demonstration purposes.\")\n",
+    "        return empty_embeddings()\n",
+    "\n",
+    "    query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0b_Prepare_Degree.cypher\", parameters)\n",
+    "    query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_0c_Drop_Model.cypher\", parameters)\n",
+    "    display(query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4b_GraphSAGE_Train.cypher\", parameters))\n",
+    "    embeddings=query_cypher_to_data_frame(\"../cypher/Node_Embeddings/Node_Embeddings_4d_GraphSAGE_Stream.cypher\", parameters)\n",
     "    \n",
     "    display(embeddings.head()) # Display the first entries of the table\n",
     "    return embeddings"
@@ -610,12 +655,40 @@
     "## 1. Java Packages"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "515db579",
+   "metadata": {},
+   "source": [
+    "### 1.1 Create Dependency Graph Projection for Java Packages\n",
+    "\n",
+    "The projection and related common parameters are shared across all embedding algorithms below."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5631c434",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "common_projection_parameters={\n",
+    "    \"dependencies_projection\": \"java-package-embeddings-notebook\",\n",
+    "    \"dependencies_projection_node\": \"Package\",\n",
+    "    \"dependencies_projection_weight_property\": \"weight25PercentInterfaces\",\n",
+    "}\n",
+    "if create_undirected_projection(common_projection_parameters):\n",
+    "    display(get_projected_graph_statistics(common_projection_parameters[\"dependencies_projection\"]))\n",
+    "else:\n",
+    "    print(f\"No data for projection creation available: {common_projection_parameters}\")"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "145dca19",
    "metadata": {},
    "source": [
-    "### 1.1 Generate Node Embeddings using Fast Random Projection (Fast RP) for Java Packages\n",
+    "### 1.2 Generate Node Embeddings using Fast Random Projection (Fast RP) for Java Packages\n",
     "\n",
     "[Fast Random Projection](https://neo4j.com/docs/graph-data-science/current/machine-learning/node-embeddings/fastrp) is used to reduce the dimensionality of the node feature space while preserving most of the distance information. Nodes with similar neighborhood result in node embedding with similar vectors.\n",
     "\n",
@@ -630,9 +703,7 @@
    "outputs": [],
    "source": [
     "java_package_embeddings_parameters={\n",
-    "    \"dependencies_projection\": \"java-package-embeddings-notebook\",\n",
-    "    \"dependencies_projection_node\": \"Package\",\n",
-    "    \"dependencies_projection_weight_property\": \"weight25PercentInterfaces\",\n",
+    "    **common_projection_parameters,\n",
     "    \"dependencies_projection_write_property\": \"embeddingsFastRandomProjection\",\n",
     "    \"dependencies_projection_embedding_dimension\":\"32\"\n",
     "}\n",
@@ -644,7 +715,7 @@
    "id": "76d8bca1",
    "metadata": {},
    "source": [
-    "### 1.2 Dimensionality reduction with Uniform Manifold Approximation and Projection (UMAP)\n",
+    "### 1.3 Dimensionality reduction with Uniform Manifold Approximation and Projection (UMAP)\n",
     "\n",
     "This step takes the original node embeddings in their high dimensionality, e.g. 32 floating point numbers, and reduces them into a two dimensional array for visualization. For more details look up the function  \"prepare_node_embeddings_for_2d_visualization\".\n",
     "\n",
@@ -671,7 +742,7 @@
    "id": "f908c47f",
    "metadata": {},
    "source": [
-    "### 1.3 Visualization of the node embeddings reduced to two dimensions"
+    "### 1.4 Visualization of the node embeddings reduced to two dimensions"
    ]
   },
   {
@@ -689,7 +760,7 @@
    "id": "b690b9a7",
    "metadata": {},
    "source": [
-    "### 1.4 Node Embeddings for Java Packages using HashGNN\n",
+    "### 1.5 Node Embeddings for Java Packages using HashGNN\n",
     "\n",
     "[HashGNN](https://neo4j.com/docs/graph-data-science/2.6/machine-learning/node-embeddings/hashgnn) resembles Graph Neural Networks (GNN) but does not include a model or require training. It combines ideas of GNNs and fast randomized algorithms. For more details see [HashGNN](https://neo4j.com/docs/graph-data-science/2.6/machine-learning/node-embeddings/hashgnn). Here, the latter 3 steps are combined into one for HashGNN."
    ]
@@ -702,9 +773,7 @@
    "outputs": [],
    "source": [
     "java_package_embeddings_parameters={\n",
-    "    \"dependencies_projection\": \"java-package-embeddings-notebook\",\n",
-    "    \"dependencies_projection_node\": \"Package\",\n",
-    "    \"dependencies_projection_weight_property\": \"weight25PercentInterfaces\",\n",
+    "    **common_projection_parameters,\n",
     "    \"dependencies_projection_write_property\": \"embeddingsHashGNN\",\n",
     "    \"dependencies_projection_embedding_dimension\":\"64\"\n",
     "}\n",
@@ -719,7 +788,7 @@
    "id": "248d88b4",
    "metadata": {},
    "source": [
-    "### 1.5 Node Embeddings for Java Packages using node2vec"
+    "### 1.6 Node Embeddings for Java Packages using node2vec"
    ]
   },
   {
@@ -730,9 +799,7 @@
    "outputs": [],
    "source": [
     "java_package_embeddings_parameters={\n",
-    "    \"dependencies_projection\": \"java-package-embeddings-notebook\",\n",
-    "    \"dependencies_projection_node\": \"Package\",\n",
-    "    \"dependencies_projection_weight_property\": \"weight25PercentInterfaces\",\n",
+    "    **common_projection_parameters,\n",
     "    \"dependencies_projection_write_property\": \"embeddingsNode2Vec\",\n",
     "    \"dependencies_projection_embedding_dimension\":\"32\"\n",
     "}\n",
@@ -747,7 +814,7 @@
    "id": "873d6a4e",
    "metadata": {},
    "source": [
-    "### 1.6 Node Embeddings for Java Packages using GraphSAGE"
+    "### 1.7 Node Embeddings for Java Packages using GraphSAGE"
    ]
   },
   {