geometric-intelligence · gbg141 · Apr 18, 2026 · Mar 27, 2026 · Mar 27, 2026 · Mar 27, 2026
diff --git a/.gitignore b/.gitignore
@@ -189,6 +189,11 @@ notebooks/tmp
 /tutorials/lightning_logs/
 /tutorials/datasets/
 
+# scripts
+scripts/hopse_plotting/csvs
+scripts/hopse_plotting/plots
+scripts/hopse_plotting/tables
+
 # wandb
 wandb/
 result_BREC/

diff --git a/configs/dataset/graph/BBB_Martins.yaml b/configs/dataset/graph/BBB_Martins.yaml
@@ -0,0 +1,36 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.ADMEDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: ADME
+    data_name: BBB_Martins
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+# Dataset parameters
+parameters:
+  num_features: 
+    - 9  # OGB atom features
+    - 3  # OGB edge features
+  num_classes: 2
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: graph
+  max_dim_if_lifted: 3
+  preserve_edge_attr_if_lifted: ${set_preserve_edge_attr:${model.model_name},True}
+
+# Splits - using fixed scaffold split from TDC
+split_params:
+  learning_setting: inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: fixed  # TDC provides predefined scaffold splits
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 64
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/CYP3A4_Veith.yaml b/configs/dataset/graph/CYP3A4_Veith.yaml
@@ -0,0 +1,36 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.ADMEDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: ADME
+    data_name: CYP3A4_Veith
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+# Dataset parameters
+parameters:
+  num_features: 
+    - 9  # OGB atom features
+    - 3  # OGB edge features
+  num_classes: 2
+  task: classification
+  loss_type: cross_entropy
+  monitor_metric: accuracy
+  task_level: graph
+  max_dim_if_lifted: 3
+  preserve_edge_attr_if_lifted: ${set_preserve_edge_attr:${model.model_name},True}
+
+# Splits - using fixed scaffold split from TDC
+split_params:
+  learning_setting: inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: fixed  # TDC provides predefined scaffold splits
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 64
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/Caco2_Wang.yaml b/configs/dataset/graph/Caco2_Wang.yaml
@@ -0,0 +1,36 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.ADMEDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: ADME
+    data_name: Caco2_Wang
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+# Dataset parameters
+parameters:
+  num_features: 
+    - 9  # OGB atom features
+    - 3  # OGB edge features
+  num_classes: 1  # Regression task
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph
+  max_dim_if_lifted: 3
+  preserve_edge_attr_if_lifted: ${set_preserve_edge_attr:${model.model_name},True}
+
+# Splits - using fixed scaffold split from TDC
+split_params:
+  learning_setting: inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: fixed  # TDC provides predefined scaffold splits
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 64
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/dataset/graph/Clearance_Hepatocyte_AZ.yaml b/configs/dataset/graph/Clearance_Hepatocyte_AZ.yaml
@@ -0,0 +1,36 @@
+# Dataset loader config
+loader:
+  _target_: topobench.data.loaders.ADMEDatasetLoader
+  parameters: 
+    data_domain: graph
+    data_type: ADME
+    data_name: Clearance_Hepatocyte_AZ
+    data_dir: ${paths.data_dir}/${dataset.loader.parameters.data_domain}/${dataset.loader.parameters.data_type}
+
+# Dataset parameters
+parameters:
+  num_features: 
+    - 9  # OGB atom features
+    - 3  # OGB edge features
+  num_classes: 1  # Regression task
+  task: regression
+  loss_type: mse
+  monitor_metric: mae
+  task_level: graph
+  max_dim_if_lifted: 3
+  preserve_edge_attr_if_lifted: ${set_preserve_edge_attr:${model.model_name},True}
+
+# Splits - using fixed scaffold split from TDC
+split_params:
+  learning_setting: inductive
+  data_split_dir: ${paths.data_dir}/data_splits/${dataset.loader.parameters.data_name}
+  data_seed: 0
+  split_type: fixed  # TDC provides predefined scaffold splits
+  k: 10
+  train_prop: 0.5
+
+# Dataloader parameters
+dataloader_params:
+  batch_size: 64
+  num_workers: 0
+  pin_memory: False
diff --git a/configs/hydra/default.yaml b/configs/hydra/default.yaml
@@ -7,9 +7,9 @@ defaults:
 
 # output directory, generated dynamically on each run
 run:
-  dir: ${paths.log_dir}/${task_name}/runs/${now:%Y-%m-%d}_${now:%H-%M-%S}
+  dir: ${paths.log_dir}/${task_name}/runs/${now:%Y-%m-%d}_${now:%H-%M-%S}_${pid:}
 sweep:
-  dir: ${paths.log_dir}/${task_name}/multiruns/${now:%Y-%m-%d}_${now:%H-%M-%S}
+  dir: ${paths.log_dir}/${task_name}/multiruns/${now:%Y-%m-%d}_${now:%H-%M-%S}_${pid:}
   subdir: ${hydra.job.num}
 
 job_logging:

diff --git a/configs/run.yaml b/configs/run.yaml
@@ -41,6 +41,7 @@ train: True
 # evaluate on test set, using best model weights achieved during training
 # lightning chooses best weights based on the metric specified in checkpoint callback
 test: True
+delete_checkpoint_after_test: False
 
 # simply provide checkpoint path to resume training
 ckpt_path: null

diff --git a/configs/transforms/data_manipulations/hopse_ps_information.yaml b/configs/transforms/data_manipulations/hopse_ps_information.yaml
@@ -42,6 +42,7 @@ parameters:
     include_eigenvalues: false
     include_first: false
     concat_to_x: false
+    device: 'cpu' # Force CPU for eigen computations
   RWSE: 
     max_pe_dim: 10
     concat_to_x: false

diff --git a/configs/transforms/data_manipulations/precompute_khop_features.yaml b/configs/transforms/data_manipulations/precompute_khop_features.yaml
@@ -3,7 +3,7 @@ transform_type: "data manipulation"
 max_hop: 1
 use_initial_features: True
 complex_dim: ${oc.select:dataset.parameters.max_dim_if_lifted,3}
-in_channels: ${infer_in_khop_feature_dim:${model.feature_encoder.dataset_in_channels},${.max_hop}} 
+in_channels: ${infer_in_khop_feature_dim:${model.feature_encoder.dataset_in_channels},${.max_hop},${.complex_dim}} 
 max_rank: 2
 # in_features: ${infer_in_sann_khop_feature_dim:${model},${3}} 
 

diff --git a/configs/transforms/model_dataset_defaults/gps_PROTEINS.yaml b/configs/transforms/model_dataset_defaults/gps_PROTEINS.yaml
@@ -0,0 +1,4 @@
+defaults:
+  - data_manipulations: identity # PROTEINS dataset needs identity transform to avoid adding random float feature to feature matrix
+  - data_manipulations@CombinedPSEs: combined_positional_and_structural_encodings
+  - liftings@_here_: ${get_required_lifting:${dataset},${model}}
diff --git a/configs/transforms/model_dataset_defaults/hopse_g_PROTEINS.yaml b/configs/transforms/model_dataset_defaults/hopse_g_PROTEINS.yaml
@@ -0,0 +1,4 @@
+defaults:
+  - data_manipulations: identity # PROTEINS dataset needs identity transform to avoid adding random float feature to feature matrix
+  - liftings@_here_: ${get_required_lifting:${dataset},${model}}
+  - data_manipulations@hopse_encoding: add_gpse_information
diff --git a/configs/transforms/model_dataset_defaults/hopse_m_PROTEINS.yaml b/configs/transforms/model_dataset_defaults/hopse_m_PROTEINS.yaml
@@ -0,0 +1,4 @@
+defaults:
+  - data_manipulations: identity # PROTEINS dataset needs identity transform to avoid adding random float feature to feature matrix
+  - liftings@_here_: ${get_required_lifting:${dataset},${model}}
+  - data_manipulations@hopse_encoding: hopse_ps_information
diff --git a/configs/transforms/model_dataset_defaults/hopse_m_ZINC.yaml b/configs/transforms/model_dataset_defaults/hopse_m_ZINC.yaml
@@ -3,34 +3,6 @@ defaults:
   - liftings@_here_: ${get_required_lifting:${dataset},${model}}
   - data_manipulations@hopse_encoding: hopse_ps_information
 
-hopse_encoding:
-  pe_types: 
-    - 'RWSE' 
-    - 'ElstaticPE'
-    - 'HKdiagSE'
-    - 'LapPE'
-
-
-  # Different PS have different sizes, need to unify them. 
-  target_pe_dim: 20
-
-  # LapPE config
-  laplacian_norm_type: 'sym'
-  posenc_LapPE_eigen_max_freqs: 18
-  posenc_LapPE_eigen_eigvec_norm: 'L2'
-  posenc_LapPE_eigen_skip_zero_freq: True
-  posenc_LapPE_eigen_eigvec_abs: True
-
-  # RWSE config
-  kernel_param_RWSE: 
-    - 2
-    - 20
-
-  # HKdiagSE config
-  kernel_param_HKdiagSE: 
-    - 1
-    - 22
-
 one_hot_node_degree_features: 
   degrees_field: x
   features_field: x
diff --git a/configs/transforms/model_dataset_defaults/sann_PROTEINS.yaml b/configs/transforms/model_dataset_defaults/sann_PROTEINS.yaml
@@ -0,0 +1,4 @@
+defaults:
+  - data_manipulations: identity # PROTEINS dataset needs identity transform to avoid adding random float feature to feature matrix
+  - liftings@_here_: ${get_required_lifting:${dataset},${model}}
+  - data_manipulations@sann_encoding: precompute_khop_features
diff --git a/pyproject.toml b/pyproject.toml
@@ -60,6 +60,10 @@ dependencies=[
     "torch-scatter",
     "torch-sparse",
     "torch-cluster",
+    "rdkit-pypi",
+    "PyTDC==1.1.15",
+    # PyTDC imports pkg_resources; setuptools>=82 dropped it.
+    "setuptools>=69,<82",
 ]
 
 [project.optional-dependencies]