wip

cre-os · cre-os · commit c35ecc350314 · 2025-10-09T14:14:31.000+02:00
diff --git a/.vscode/settings.json b/.vscode/settings.json
diff --git a/requirements.txt b/requirements.txt
@@ -1,48 +1,47 @@
 babel==2.17.0
-backrefs==5.8
-certifi==2025.1.31
-charset-normalizer==3.4.1
-click==8.1.8
+backrefs==5.9
+certifi==2025.10.5
+charset-normalizer==3.4.3
+click==8.3.0
 colorama==0.4.6
-duckdb==1.2.1
+duckdb==1.4.1
 duckdb_engine==0.17.0
-elementpath==4.8.0
+elementpath==5.0.4
 ghp-import==2.1.0
-greenlet==3.1.1
-griffe==1.7.2
+greenlet==3.2.4
+griffe==1.14.0
 idna==3.10
 iniconfig==2.1.0
 Jinja2==3.1.6
-lxml==5.3.2
-Markdown==3.7
-MarkupSafe==3.0.2
+lxml==6.0.2
+Markdown==3.9
+MarkupSafe==3.0.3
 mergedeep==1.3.4
 mkdocs==1.6.1
-mkdocs-autorefs==1.4.1
+mkdocs-autorefs==1.4.3
 mkdocs-get-deps==0.2.0
-mkdocs-material==9.6.11
+mkdocs-material==9.6.21
 mkdocs-material-extensions==1.3.1
-mkdocstrings==0.29.1
-mkdocstrings-python==1.16.10
-packaging==24.2
+mkdocstrings==0.30.1
+mkdocstrings-python==1.18.2
+packaging==25.0
 paginate==0.5.7
 pathspec==0.12.1
-platformdirs==4.3.7
-pluggy==1.5.0
-psycopg2-binary==2.9.10
-Pygments==2.19.1
-pymdown-extensions==10.14.3
-PyMySQL==1.1.1
+platformdirs==4.4.0
+pluggy==1.6.0
+psycopg2==2.9.10
+Pygments==2.19.2
+pymdown-extensions==10.16.1
+PyMySQL==1.1.2
 pyodbc==5.2.0
-pytest==8.3.5
+pytest==8.4.2
 python-dateutil==2.9.0.post0
-PyYAML==6.0.2
-pyyaml_env_tag==0.1
-requests==2.32.3
+PyYAML==6.0.3
+pyyaml_env_tag==1.1
+requests==2.32.5
 six==1.17.0
-SQLAlchemy==2.0.40
-typing_extensions==4.13.1
-tzlocal==5.3.1
-urllib3==2.3.0
+SQLAlchemy==2.0.43
+typing_extensions==4.15.0
+urllib3==2.5.0
 watchdog==6.0.0
-xmlschema==3.4.5
+xmlschema==4.1.0
diff --git a/src/xml2db/model.py b/src/xml2db/model.py
@@ -196,8 +196,12 @@ def _create_table_model(
             A data model instance.
         """
         table_config = self.tables_config.get(table_name, {})
-        table_config["shorten_temp_table_names"] = self.model_config["shorten_temp_table_names"]
-        table_config["shorten_rel_table_names"] = self.model_config["shorten_rel_table_names"]
+        table_config["shorten_temp_table_names"] = self.model_config[
+            "shorten_temp_table_names"
+        ]
+        table_config["shorten_rel_table_names"] = self.model_config[
+            "shorten_rel_table_names"
+        ]
         if table_config.get("reuse", True):
             return DataModelTableReused(
                 table_name,
diff --git a/src/xml2db/table/duplicated_table.py b/src/xml2db/table/duplicated_table.py
@@ -119,8 +119,12 @@ def get_col(temp=False) -> Iterable[Column]:
                 )
             )
 
-        temp_table_name = f"{prefix}{self.name}" 
-        temp_table_name = self.truncate_long_name(temp_table_name) if self.config.get("shorten_temp_table_names") else temp_table_name
+        temp_table_name = f"{prefix}{self.name}"
+        temp_table_name = (
+            self.truncate_long_name(temp_table_name)
+            if self.config.get("shorten_table_names")
+            else temp_table_name
+        )
 
         # build temporary table
         self.temp_table = Table(
diff --git a/src/xml2db/table/relations.py b/src/xml2db/table/relations.py
@@ -101,9 +101,13 @@ def build_relation_tables(self) -> None:
         )
         prefix = f"temp_{self.table.temp_prefix}_"
         if self.other_table.is_reused:
-            temp_table_name = f"{prefix}{self.rel_table_name}" 
-            temp_table_name = self.table.truncate_long_name(temp_table_name) if self.table.config.get("shorten_temp_table_names") else temp_table_name
-            
+            temp_table_name = f"{prefix}{self.rel_table_name}"
+            temp_table_name = (
+                self.table.truncate_long_name(temp_table_name)
+                if self.table.config.get("shorten_temp_table_names")
+                else temp_table_name
+            )
+
             self.temp_rel_table = Table(
                 temp_table_name,
                 self.table.metadata,
@@ -135,7 +139,11 @@ def build_relation_tables(self) -> None:
                     ),
                 )
 
-            table_name =  self.table.truncate_long_name(self.rel_table_name) if self.table.config.get("shorten_rel_table_names") else self.rel_table_name
+            table_name = (
+                self.table.truncate_long_name(self.rel_table_name)
+                if self.table.config.get("shorten_rel_table_names")
+                else self.rel_table_name
+            )
             self.rel_table = Table(
                 table_name,
                 self.table.metadata,
diff --git a/src/xml2db/table/reused_table.py b/src/xml2db/table/reused_table.py
@@ -15,12 +15,14 @@
 from .column import DataModelColumn
 from .transformed_table import DataModelTableTransformed
 
+
 def shorten_str(x: str, max_len: int = 30) -> str:
     if len(x) > max_len:
         h = sha1(x.encode("utf8"))
         return f"{x[:(max_len - 7)]}_{h.hexdigest()[1:6]}"
     return x
 
+
 class DataModelTableReused(DataModelTableTransformed):
     """A table data model which de-duplicates records in the database based on their hash value.
 
@@ -132,8 +134,12 @@ def get_col(temp=False):
                 )
             )
 
-        temp_table_name = f"{prefix}{self.name}" 
-        temp_table_name = self.truncate_long_name(temp_table_name) if self.config.get("shorten_temp_table_names") else temp_table_name
+        temp_table_name = f"{prefix}{self.name}"
+        temp_table_name = (
+            self.truncate_long_name(temp_table_name)
+            if self.config.get("shorten_temp_table_names")
+            else temp_table_name
+        )
 
         # build temporary table
         self.temp_table = Table(
diff --git a/src/xml2db/table/table.py b/src/xml2db/table/table.py
@@ -1,5 +1,5 @@
 import hashlib
-import base64
+import re
 from typing import Iterable, List, Any, Union, TYPE_CHECKING
 import logging
 import sqlalchemy
@@ -15,6 +15,7 @@
 
 logger = logging.getLogger(__name__)
 
+
 class DataModelTable:
     """A class representing a database table translated from an XML schema complex type
 
@@ -100,8 +101,9 @@ def _validate_config(self, cfg, db_type):
         config = {
             "reuse": check_type(cfg, "reuse", bool, True),
             "as_columnstore": check_type(cfg, "as_columnstore", bool, False),
-            "shorten_temp_table_names": check_type(cfg, "shorten_temp_table_names", bool, False),
-            "shorten_rel_table_names": check_type(cfg, "shorten_rel_table_names", bool, False)
+            "shorten_table_names": check_type(
+                cfg, "shorten_table_names", bool, db_type == "postgresql"
+            ),
         }
         if "extra_args" in cfg and not (
             isinstance(cfg["extra_args"], list)
@@ -120,7 +122,7 @@ def _validate_config(self, cfg, db_type):
             logger.warning(
                 "Clustered columnstore indexes are only supported with MS SQL Server database"
             )
-        
+
         config["fields"] = cfg.get("fields", {})
 
         return config
@@ -409,28 +411,33 @@ def get_entity_rel_diagram(self) -> List:
             + ["}"]
         )
         return [f"    {line}" for line in out]
-    
+
     def truncate_long_name(self, table_name: str) -> str:
-        max_len = 63 #both postgres and mysql safe table name len
+        max_len = 63  # both postgres and mysql safe table name len
         new_name = table_name
-        
-        short_name = ""
-        shorter_name = ""
+
         is_tmp = "temp" in table_name
         suffix = f"_{hashlib.md5(table_name.encode('utf-8')).hexdigest()}"
 
         if len(table_name) > max_len:
-            words = table_name.split("_")
+            # extract words for camelCase and snake_case identifiers
+            s = re.sub(r"(?<=[a-z0-9])([A-Z])", r"_\1", table_name)
+            s = re.sub(r"([A-Z]+)([A-Z][a-z])", r"\1_\2", s)
+            words = [word for word in s.split("_") if word]
 
+            short_name = ""
+            shorter_name = ""
             for word in words:
-                if len(short_name) + len(word)<= (max_len - 1):
-                    if len(short_name) > 0: short_name += "_"
+                if len(short_name) + len(word) <= (max_len - 1):
+                    if len(short_name) > 0:
+                        short_name += "_"
                     short_name += f"{word}"
                 if len(shorter_name) + len(word) <= (max_len - 10):
-                    if len(shorter_name) > 0: shorter_name += "_"
+                    if len(shorter_name) > 0:
+                        shorter_name += "_"
                     shorter_name += f"{word}"
 
-            #check if sliced name already exists:
+            # check if sliced name already exists:
             sentinel = False
             if is_tmp:
                 # just cut the name up and append the full suffix
@@ -446,8 +453,8 @@ def truncate_long_name(self, table_name: str) -> str:
                         if relation.rel_table_name == short_name:
                             sentinel = True
                             break
-            
-            # an existing table or relation was found: append a 
+
+            # an existing table or relation was found: append a
             # random-ish suffix to help prevent name collisions
             if sentinel:
                 # create a more useable/legible short table name
diff --git a/src/xml2db/table/transformed_table.py b/src/xml2db/table/transformed_table.py
@@ -5,6 +5,7 @@
 from .relations import DataModelRelation1, DataModelRelationN
 from .table import DataModelTable
 
+
 class DataModelTableTransformed(DataModelTable):
     """A class extending DataModelTable with transformations
 
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -37,8 +37,4 @@ def setup_db_model(conn_string, model_config):
 
     yield model
 
-    try:
-        model.drop_all_tables()
-    except Exception as e:
-        print(f"Unable to drop all tables: {e}")
-        pass
+    model.drop_all_tables()
diff --git a/tests/test_roundtrip.py b/tests/test_roundtrip.py

Original file line number	Diff line number	Diff line change
`@@ -119,8 +119,12 @@ def get_col(temp=False) -> Iterable[Column]:`
`119`	`119`	`)`
`120`	`120`	`)`
`121`	`121`
`122`		`- temp_table_name = f"{prefix}{self.name}"`
`123`		`- temp_table_name = self.truncate_long_name(temp_table_name) if self.config.get("shorten_temp_table_names") else temp_table_name`
	`122`	`+ temp_table_name = f"{prefix}{self.name}"`
	`123`	`+ temp_table_name = (`
	`124`	`+ self.truncate_long_name(temp_table_name)`
	`125`	`+ if self.config.get("shorten_table_names")`
	`126`	`+ else temp_table_name`
	`127`	`+ )`
`124`	`128`
`125`	`129`	`# build temporary table`
`126`	`130`	`self.temp_table = Table(`