Skip to content

Commit 3a65875

Browse files
committed
Add alternate form usecases.
ഉദ്ഘാടനം ചികിൽസ തുടങ്ങിയവ.
1 parent 1b8b2ae commit 3a65875

2 files changed

Lines changed: 7 additions & 0 deletions

File tree

libindic/normalizer/rules/normalizer.ml.yaml

Lines changed: 6 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -28,6 +28,12 @@ normalize_alternateforms:
2828
"വിദ്യാർത്ഥി": "വിദ്യാർഥി"
2929
"": ""
3030
"ു്": ""
31+
"അൽഭുത" : "അദ്ഭുത"
32+
"അത്ഭുത" : "അദ്ഭുത"
33+
"ചികിൽസ" : "ചികിത്സ"
34+
"പ്രഗൽഭ" : "പ്രഗത്ഭ"
35+
"ഉൽഘ" : "ഉദ്ഘ"
36+
"ഉത്ഘ" : "ഉദ്ഘ"
3137

3238

3339
common_mistakes: # Regex patterns for common mistakes in Malayalam raw corpus, ASR/OCR outputs

libindic/normalizer/tests/test_normalizer.py

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -61,6 +61,7 @@ def test_normalize(self):
6161
self.assertEqual(normalize('കാറ് '), 'കാറ് ')
6262
self.assertEqual(normalize('പൂമ്പാററ'), 'പൂമ്പാറ്റ')
6363
self.assertEqual(normalize('കാറ്റ്'), 'കാറ്റ്')
64+
self.assertEqual(normalize('അൽഭുതം അത്ഭുതം ചികിൽസാപിഴവ്', remove_punctuations=False), "അദ്ഭുതം അദ്ഭുതം ചികിത്സാപിഴവ്")
6465
self.assertEqual(normalize('ദു:ഖത്തിന്റെ–'), 'ദുഃഖത്തിന്റെ')
6566
self.assertEqual(normalize('ദു:ഖത്തിന്റെ-', remove_punctuations=False),
6667
'ദുഃഖത്തിന്റെ-')

0 commit comments

Comments
 (0)