Skip to content

Commit d7c558b

Browse files
committed
Update README with more usage examples, removed rule to correct ൻറ
1 parent 62628ee commit d7c558b

4 files changed

Lines changed: 4 additions & 11 deletions

File tree

README.md

Lines changed: 3 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -35,9 +35,9 @@ Output: Normalized unicode text
3535
3636
>>> from libindic.normalizer import Normalizer
3737
>>> normalizer = Normalizer("ml")
38-
>>> result = normalizer.normalize('ദു:ഖത്തിന്റെ')
38+
>>> result = normalizer.normalize('ഇ–മെയിൽ ദു:ഖത്തിന്റെ ൊന്നിലോ പാൻറ് 2011 സര്വകലാശാല അവള്‍ അവില്‍പാെതി ഹാർഡ്‌വെയർ‌ അവര്ക്ക് കാറ്ഡ് നമ്പറുള്പ്പെടെ പൌരൻ കൺ്മഷി “ഭാൎയ്യ”')
3939
>>> print(result)
40-
>> ദുഃഖത്തിന്റെ
40+
>> ഇമെയിൽ ദുഃഖത്തിന്റെ ഒന്നിലോ പാന്റ് 2011 സർവകലാശാല അവൾ അവിൽപൊതി ഹാർഡ്‌വെയർ അവർക്ക് കാർഡ് നമ്പറുൾപ്പെടെ പൗരൻ കൺമഷി ഭാര്യ
4141
>>> result = normalizer.normalize('പൌരൻ!!', remove_punctuations=False)
4242
>>> print(result)
4343
>>> പൗരൻ!!
@@ -66,10 +66,6 @@ Sample output:
6666
coverage run --source=libindic -m unittest discover -s libindic
6767
.
6868
----------------------------------------------------------------------
69-
Ran 1 test in 0.001s
70-
71-
OK
72-
flake8 --max-complexity 10 libindic
73-
69+
Ran 2 test in 0.014s
7470
```
7571

libindic/normalizer/core.py

Lines changed: 0 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -43,7 +43,6 @@ def load_rules(self):
4343
# Replace {PUNCTUATION} placeholder with actual punctuation characters
4444
pattern = pattern.replace('{PUNCTUATION}', re.escape(string.punctuation))
4545
rules['compiled_regex'][re.compile(pattern, re.UNICODE)] = replacement
46-
4746
return rules
4847

4948
def apply_regex_patterns(self, text):

libindic/normalizer/rules/normalizer.ml.yaml

Lines changed: 0 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -66,7 +66,6 @@ common_mistakes: # Regex patterns for common mistakes in Malayalam raw corpus, A
6666
'പക്ഷെ': 'പക്ഷേ'
6767
'ൻറും' : 'ന്റും'
6868
'ൻറ്': 'ന്റ്'
69-
'ൻറി' : 'ന്റി'
7069
'ുൻപോൾ' : 'ുമ്പോൾ'
7170

7271

libindic/normalizer/tests/test_normalizer.py

Lines changed: 1 addition & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -67,8 +67,7 @@ def test_normalize(self):
6767
self.assertEqual(normalize('ൌന്നത്യം'), 'ഔന്നത്യം')
6868
self.assertEqual(normalize('പാൻറ്'), 'പാന്റ്')
6969
self.assertEqual(normalize('കൺ്മഷി'), 'കൺമഷി')
70-
self.assertEqual(normalize('“ആൻറി”', remove_punctuations=False), '"ആന്റി"')
71-
self.assertEqual(normalize('“ആൻറി', remove_punctuations=True), 'ആന്റി') # This happens by dafault
70+
self.assertEqual(normalize('“ആൻസി”', remove_punctuations=False), '"ആൻസി"')
7271
self.assertEqual(normalize('അമ്മ’'), 'അമ്മ')
7372
self.assertEqual(normalize('അമ്മ’', remove_punctuations=False), "അമ്മ'")
7473
self.assertEqual(normalize('ഇ–മെയിൽ', remove_punctuations=False), "ഇ-മെയിൽ")

0 commit comments

Comments
 (0)