use new functions from ticcutils Unicode.h for small speedup and

kosloot · kosloot · commit 816185b811e1 · 2026-03-01T11:48:05.000+01:00
smaller memory footprint
diff --git a/include/ucto/tokenize.h b/include/ucto/tokenize.h
@@ -381,7 +381,7 @@ namespace Tokenizer {
 
     void appendText( folia::FoliaElement * ) const;
 
-    TiCC::UnicodeNormalizer normalizer;
+    mutable TiCC::UnicodeNormalizer normalizer;
     std::string inputEncoding;
 
     const UnicodeString& detect_type( UChar32 );
diff --git a/src/setting.cxx b/src/setting.cxx
@@ -292,7 +292,7 @@ namespace Tokenizer {
     }
     else {
       UnicodeString line;
-      while ( TiCC::getline( f, line ) ){
+      while ( TiCC::getline( f, _normalizer, line ) ){
 	line.trim();
 	if ((line.length() > 0) && (line[0] != '#')) {
 	  if ( tokDebug >= 5 ){
@@ -329,7 +329,7 @@ namespace Tokenizer {
     }
     else {
       UnicodeString line;
-      while ( TiCC::getline( f, line ) ){
+      while ( TiCC::getline( f, _normalizer, line ) ){
 	line.trim();
 	if ((line.length() > 0) && (line[0] != '#')) {
 	  if ( tokDebug >= 5 ){
@@ -370,7 +370,7 @@ namespace Tokenizer {
     }
     else {
       UnicodeString line;
-      while ( TiCC::getline( f, line ) ){
+      while ( TiCC::getline( f, _normalizer, line ) ){
 	line.trim();
 	if ((line.length() > 0) && (line[0] != '#')) {
 	  if ( tokDebug >= 5 ){
@@ -431,7 +431,7 @@ namespace Tokenizer {
     }
     else {
       UnicodeString line;
-      while ( TiCC::getline( f, line ) ){
+      while ( TiCC::getline( f, _normalizer, line ) ){
 	line.trim();
 	if ((line.length() > 0) && (line[0] != '#')) {
 	  if ( tokDebug >= 5 ){
@@ -650,7 +650,7 @@ namespace Tokenizer {
       }
       int rule_count = 0;
       UnicodeString line;
-      while ( TiCC::getline( f, line ) ){
+      while ( TiCC::getline( f, _normalizer, line ) ){
 	if ( line.indexOf( "%include" ) != -1 ){
 	  UnicodeString file = UnicodeString(line, 9 );
 	  switch ( mode ){
@@ -850,7 +850,7 @@ namespace Tokenizer {
       if ( !add_tokens.empty() ){
 	ifstream adt( add_tokens );
 	UnicodeString line;
-	while ( TiCC::getline( adt, line ) ){
+	while ( TiCC::getline( adt, _normalizer, line ) ){
 	  UnicodeString entry = escape_regex( line );
 	  if ( !entry.isEmpty() ){
 	    if ( !patterns[TOKENS].isEmpty() ){
diff --git a/src/tokenize.cxx b/src/tokenize.cxx
@@ -720,7 +720,7 @@ namespace Tokenizer {
 	args["name"] = s.second->set_file;
 	args["generate_id"] = "next()";
 	args["type"] = "datasource";
-	args["version"] = TiCC::UnicodeToUTF8(s.second->version);
+	args["version"] = TiCC::UnicodeToUTF8(s.second->version,normalizer);
 	doc->add_processor( args, data_proc );
 	args.clear();
 	args["processor"] = proc->id();
@@ -1368,7 +1368,7 @@ namespace Tokenizer {
       if ( !ids.empty() ){
 	args["generate_id"] = ids;
       }
-      args["class"] = TiCC::UnicodeToUTF8(tok.type);
+      args["class"] = TiCC::UnicodeToUTF8(tok.type,normalizer);
       if ( tok.role & NOSPACE ){
 	args["space"] = "no";
       }
@@ -1528,7 +1528,7 @@ namespace Tokenizer {
       // New elements
       folia::KWargs args;
       args["xml:id"] = orig->generateId( "tokenized" );
-      args["class"] = TiCC::UnicodeToUTF8(tok.type);
+      args["class"] = TiCC::UnicodeToUTF8(tok.type,normalizer);
       if ( tok.role & NOSPACE ){
 	args["space"] = "no";
       }
@@ -3583,7 +3583,7 @@ namespace Tokenizer {
     }
     else {
       set_file = it->second->set_file;
-      version = TiCC::UnicodeToUTF8(it->second->version);
+      version = TiCC::UnicodeToUTF8(it->second->version,normalizer);
       return true;
     }
   }

Original file line number	Diff line number	Diff line change
`@@ -720,7 +720,7 @@ namespace Tokenizer {`
`720`	`720`	`args["name"] = s.second->set_file;`
`721`	`721`	`args["generate_id"] = "next()";`
`722`	`722`	`args["type"] = "datasource";`
`723`		`- args["version"] = TiCC::UnicodeToUTF8(s.second->version);`
	`723`	`+ args["version"] = TiCC::UnicodeToUTF8(s.second->version,normalizer);`
`724`	`724`	`doc->add_processor( args, data_proc );`
`725`	`725`	`args.clear();`
`726`	`726`	`args["processor"] = proc->id();`
`@@ -1368,7 +1368,7 @@ namespace Tokenizer {`
`1368`	`1368`	`if ( !ids.empty() ){`
`1369`	`1369`	`args["generate_id"] = ids;`
`1370`	`1370`	`}`
`1371`		`- args["class"] = TiCC::UnicodeToUTF8(tok.type);`
	`1371`	`+ args["class"] = TiCC::UnicodeToUTF8(tok.type,normalizer);`
`1372`	`1372`	`if ( tok.role & NOSPACE ){`
`1373`	`1373`	`args["space"] = "no";`
`1374`	`1374`	`}`
`@@ -1528,7 +1528,7 @@ namespace Tokenizer {`
`1528`	`1528`	`// New elements`
`1529`	`1529`	`folia::KWargs args;`
`1530`	`1530`	`args["xml:id"] = orig->generateId( "tokenized" );`
`1531`		`- args["class"] = TiCC::UnicodeToUTF8(tok.type);`
	`1531`	`+ args["class"] = TiCC::UnicodeToUTF8(tok.type,normalizer);`
`1532`	`1532`	`if ( tok.role & NOSPACE ){`
`1533`	`1533`	`args["space"] = "no";`
`1534`	`1534`	`}`
`@@ -3583,7 +3583,7 @@ namespace Tokenizer {`
`3583`	`3583`	`}`
`3584`	`3584`	`else {`
`3585`	`3585`	`set_file = it->second->set_file;`
`3586`		`- version = TiCC::UnicodeToUTF8(it->second->version);`
	`3586`	`+ version = TiCC::UnicodeToUTF8(it->second->version,normalizer);`
`3587`	`3587`	`return true;`
`3588`	`3588`	`}`
`3589`	`3589`	`}`