Add from_relbench utility to convert RelBench databases to HeteroData

AJamal27891 · AJamal27891 · commit e1cb0cb1d55a · 2026-03-04T17:57:07.000+02:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -7,6 +7,8 @@ The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/).
 
 ### Added
 
+- Added `from_relbench` utility to convert RelBench databases into `HeteroData` ([#XXXX](https://github.com/pyg-team/pytorch_geometric/pull/XXXX))
+
 ### Changed
 
 - Dropped support for TorchScript in `GATConv` and `GATv2Conv` for correctness ([#10596](https://github.com/pyg-team/pytorch_geometric/pull/10596))
diff --git a/test/utils/test_relbench.py b/test/utils/test_relbench.py
@@ -0,0 +1,195 @@
+from types import SimpleNamespace
+
+import pandas as pd
+import torch
+
+from torch_geometric.testing import withPackage
+from torch_geometric.utils import from_relbench
+
+
+def _mock_table(
+    df: pd.DataFrame,
+    fkey_col_to_pkey_table: dict,
+    pkey_col: str = None,
+    time_col: str = None,
+) -> SimpleNamespace:
+    """Create a mock object that duck-types relbench.base.Table."""
+    return SimpleNamespace(
+        df=df,
+        fkey_col_to_pkey_table=fkey_col_to_pkey_table,
+        pkey_col=pkey_col,
+        time_col=time_col,
+    )
+
+
+def _mock_database(table_dict: dict) -> SimpleNamespace:
+    """Create a mock object that duck-types relbench.base.Database."""
+    return SimpleNamespace(table_dict=table_dict)
+
+
+def test_from_relbench():
+    df_users = pd.DataFrame({
+        'id': [0, 1, 2],
+        'age': [25, 30, 35],
+        'score': [1.0, 2.0, 3.0],
+    })
+    df_posts = pd.DataFrame({
+        'id': [0, 1, 2, 3],
+        'user_id': [0, 1, 0, 2],
+        'length': [100, 200, 150, 300],
+    })
+
+    users = _mock_table(
+        df=df_users,
+        fkey_col_to_pkey_table={},
+        pkey_col='id',
+    )
+    posts = _mock_table(
+        df=df_posts,
+        fkey_col_to_pkey_table={'user_id': 'users'},
+        pkey_col='id',
+    )
+
+    db = _mock_database(table_dict={'users': users, 'posts': posts})
+    data = from_relbench(db)
+
+    # Verify node types:
+    assert 'users' in data.node_types
+    assert 'posts' in data.node_types
+
+    # Verify node counts:
+    assert data['users'].num_nodes == 3
+    assert data['posts'].num_nodes == 4
+
+    # Verify numeric features were extracted:
+    assert data['users'].x is not None
+    assert data['users'].x.size() == (3, 2)  # age, score
+    assert data['posts'].x is not None
+    assert data['posts'].x.size() == (4, 1)  # length
+
+    # Verify feature values:
+    assert torch.allclose(
+        data['users'].x,
+        torch.tensor([[25, 1.0], [30, 2.0], [35, 3.0]]),
+    )
+
+    # Verify edge types (bidirectional fkey edges):
+    edge_types = data.edge_types
+    assert ('posts', 'f2p_user_id', 'users') in edge_types
+    assert ('users', 'rev_f2p_user_id', 'posts') in edge_types
+
+    # Verify edge index shapes (4 posts, each referencing a user):
+    fwd = data['posts', 'f2p_user_id', 'users'].edge_index
+    rev = data['users', 'rev_f2p_user_id', 'posts'].edge_index
+    assert fwd.size() == (2, 4)
+    assert rev.size() == (2, 4)
+
+
+def test_from_relbench_dangling_fkeys():
+    """Test that dangling (NaN) foreign keys are filtered out."""
+    df_users = pd.DataFrame({'id': [0, 1]})
+    df_posts = pd.DataFrame({
+        'id': [0, 1, 2],
+        'user_id':
+        pd.array([0, None, 1], dtype=pd.Int64Dtype()),
+    })
+
+    users = _mock_table(
+        df=df_users,
+        fkey_col_to_pkey_table={},
+        pkey_col='id',
+    )
+    posts = _mock_table(
+        df=df_posts,
+        fkey_col_to_pkey_table={'user_id': 'users'},
+        pkey_col='id',
+    )
+
+    db = _mock_database(table_dict={'users': users, 'posts': posts})
+    data = from_relbench(db)
+
+    # Only 2 out of 3 posts have valid foreign keys:
+    fwd = data['posts', 'f2p_user_id', 'users'].edge_index
+    assert fwd.size() == (2, 2)
+
+
+def test_from_relbench_time_column():
+    """Test that time columns are correctly converted."""
+    df = pd.DataFrame({
+        'id': [0, 1, 2],
+        'ts':
+        pd.to_datetime(['2024-01-01', '2024-01-02', '2024-01-03']),
+        'val': [10, 20, 30],
+    })
+
+    events = _mock_table(
+        df=df,
+        fkey_col_to_pkey_table={},
+        pkey_col='id',
+        time_col='ts',
+    )
+
+    db = _mock_database(table_dict={'events': events})
+    data = from_relbench(db)
+
+    assert data['events'].num_nodes == 3
+    assert data['events'].time is not None
+    assert data['events'].time.size() == (3, )
+    # Time column should not appear in features:
+    assert data['events'].x.size() == (3, 1)  # only 'val'
+
+
+def test_from_relbench_no_features():
+    """Test tables with only pkey/fkey columns and no numeric features."""
+    df = pd.DataFrame({
+        'id': [0, 1, 2],
+        'name': ['a', 'b', 'c'],  # Non-numeric, should be excluded
+    })
+
+    items = _mock_table(
+        df=df,
+        fkey_col_to_pkey_table={},
+        pkey_col='id',
+    )
+
+    db = _mock_database(table_dict={'items': items})
+    data = from_relbench(db)
+
+    assert data['items'].num_nodes == 3
+    # No numeric feature columns (name is string, id is pkey):
+    assert not hasattr(data['items'], 'x') or data['items'].x is None
+
+
+@withPackage('relbench')
+def test_from_relbench_with_relbench():
+    """Integration test using actual relbench objects."""
+    from relbench.base import Database, Table
+
+    df_users = pd.DataFrame({
+        'id': [0, 1, 2],
+        'age': [25, 30, 35],
+    })
+    df_posts = pd.DataFrame({
+        'id': [0, 1, 2],
+        'user_id': [0, 1, 0],
+        'score': [10, 20, 30],
+    })
+
+    users = Table(
+        df=df_users,
+        fkey_col_to_pkey_table={},
+        pkey_col='id',
+    )
+    posts = Table(
+        df=df_posts,
+        fkey_col_to_pkey_table={'user_id': 'users'},
+        pkey_col='id',
+    )
+
+    db = Database(table_dict={'users': users, 'posts': posts})
+    data = from_relbench(db)
+
+    assert 'users' in data.node_types
+    assert 'posts' in data.node_types
+    assert data['users'].num_nodes == 3
+    assert data['posts'].num_nodes == 3
diff --git a/torch_geometric/utils/__init__.py b/torch_geometric/utils/__init__.py
@@ -46,6 +46,7 @@
 from .convert import to_cugraph, from_cugraph
 from .convert import to_dgl, from_dgl
 from .smiles import from_rdmol, to_rdmol, from_smiles, to_smiles
+from .relbench import from_relbench
 from .random import (erdos_renyi_graph, stochastic_blockmodel_graph,
                      barabasi_albert_graph)
 from ._negative_sampling import (negative_sampling, batched_negative_sampling,
@@ -135,6 +136,7 @@
     'to_rdmol',
     'from_smiles',
     'to_smiles',
+    'from_relbench',
     'erdos_renyi_graph',
     'stochastic_blockmodel_graph',
     'barabasi_albert_graph',
diff --git a/torch_geometric/utils/relbench.py b/torch_geometric/utils/relbench.py
@@ -0,0 +1,117 @@
+from typing import Any
+
+import numpy as np
+import torch
+
+import torch_geometric
+from torch_geometric.data import HeteroData
+from torch_geometric.utils import sort_edge_index
+
+
+def from_relbench(db: Any) -> 'torch_geometric.data.HeteroData':
+    r"""Converts a :class:`relbench.base.Database` object into a
+    :class:`~torch_geometric.data.HeteroData` object.
+
+    Each table in the database becomes a node type and each foreign key
+    relationship becomes a bidirectional edge type.
+
+    Numeric columns (excluding primary key, foreign key, and time columns)
+    are concatenated into a node feature tensor :obj:`x`. If a table contains
+    a time column, it is stored as a :obj:`time` attribute.
+
+    Args:
+        db (relbench.base.Database): A RelBench database instance containing
+            a dictionary of tables linked by primary-foreign key
+            relationships.
+
+    Returns:
+        HeteroData: A heterogeneous graph where each table maps to a node
+        type and each foreign key relationship maps to a pair of directed
+        edge types.
+
+    Example:
+        >>> from relbench.base import Database, Table
+        >>> import pandas as pd
+        >>> users = Table(
+        ...     df=pd.DataFrame({'id': [0, 1, 2], 'age': [25, 30, 35]}),
+        ...     fkey_col_to_pkey_table={},
+        ...     pkey_col='id',
+        ... )
+        >>> posts = Table(
+        ...     df=pd.DataFrame({
+        ...         'id': [0, 1, 2],
+        ...         'user_id': [0, 1, 0],
+        ...         'score': [10, 20, 30],
+        ...     }),
+        ...     fkey_col_to_pkey_table={'user_id': 'users'},
+        ...     pkey_col='id',
+        ... )
+        >>> db = Database(table_dict={'users': users, 'posts': posts})
+        >>> data = from_relbench(db)
+        >>> data.node_types
+        ['users', 'posts']
+    """
+    data = HeteroData()
+
+    for table_name, table in db.table_dict.items():
+        df = table.df
+
+        # Determine columns to exclude from node features:
+        exclude_cols = set()
+        if table.pkey_col is not None:
+            exclude_cols.add(table.pkey_col)
+        if table.time_col is not None:
+            exclude_cols.add(table.time_col)
+        for fkey_col in table.fkey_col_to_pkey_table:
+            exclude_cols.add(fkey_col)
+
+        # Set number of nodes:
+        data[table_name].num_nodes = len(df)
+
+        # Convert numeric feature columns into a node feature tensor:
+        feature_cols = [
+            col for col in df.columns
+            if col not in exclude_cols and df[col].dtype.kind in ('i', 'f')
+        ]
+        if len(feature_cols) > 0:
+            x = torch.from_numpy(df[feature_cols].values.astype(np.float32), )
+            data[table_name].x = x
+
+        # Store time column as Unix timestamp tensor:
+        if table.time_col is not None:
+            time_ser = df[table.time_col]
+            if time_ser.dtype in [
+                    np.dtype("datetime64[s]"),
+                    np.dtype("datetime64[ns]"),
+            ]:
+                unix_time = time_ser.astype("int64").values
+                if time_ser.dtype == np.dtype("datetime64[ns]"):
+                    unix_time = unix_time // 10**9
+                data[table_name].time = torch.from_numpy(unix_time)
+            else:
+                data[table_name].time = torch.from_numpy(
+                    time_ser.values.astype(np.float64), )
+
+        # Create edges from foreign key relationships:
+        for fkey_col, pkey_table_name in table.fkey_col_to_pkey_table.items():
+            pkey_index = df[fkey_col]
+
+            # Filter out dangling (NaN) foreign keys:
+            mask = ~pkey_index.isna()
+            fkey_idx = torch.arange(len(pkey_index))
+            pkey_idx = torch.from_numpy(pkey_index[mask].astype(int).values, )
+            fkey_idx = fkey_idx[torch.from_numpy(mask.values)]
+
+            # Forward edge: fkey table -> pkey table
+            edge_index = torch.stack([fkey_idx, pkey_idx], dim=0)
+            edge_type = (table_name, f"f2p_{fkey_col}", pkey_table_name)
+            data[edge_type].edge_index = sort_edge_index(edge_index)
+
+            # Reverse edge: pkey table -> fkey table
+            edge_index = torch.stack([pkey_idx, fkey_idx], dim=0)
+            edge_type = (pkey_table_name, f"rev_f2p_{fkey_col}", table_name)
+            data[edge_type].edge_index = sort_edge_index(edge_index)
+
+    data.validate()
+
+    return data