v0.1

wannaphong · wannaphong · commit 2a37f9463c9f · 2023-01-03T15:28:42.000Z
diff --git a/setup.py b/setup.py
@@ -13,15 +13,14 @@
 
 setup(
     name="spacy-pythainlp",
-    version="0.1dev8",
+    version="0.1",
     description="PyThaiNLP For spaCy",
     long_description=readme,
     long_description_content_type="text/markdown",
     author="Wannaphong Phatthiyaphaibun",
     author_email="wannaphong@yahoo.com",
     url="https://github.com/PyThaiNLP/spaCy-PyThaiNLP",
     packages=["spacy_pythainlp"],
-    # test_suite="tests",
     python_requires=">=3.7",
     include_package_data=True,
     install_requires=requirements,
diff --git a/spacy_pythainlp/core.py b/spacy_pythainlp/core.py
@@ -109,23 +109,21 @@ def _pos(self, doc:Doc):
         else:
             _list_txt = [[j.text for j in doc]]
         for i in _list_txt:
-            _w = i
-            _tag_ = pos_tag(_w, engine=self.pos_engine,corpus=self.pos_corpus)
+            _word = i
+            _tag_ = pos_tag(_word, engine=self.pos_engine, corpus=self.pos_corpus)
             _pos_tag.extend([tag for _,tag in _tag_])
         for i,_ in enumerate(_pos_tag):
-            #print(doc[i])
             doc[i].pos_ = _pos_tag[i]
         return doc
 
     def _sent(self, doc:Doc):
         from pythainlp.tokenize import sent_tokenize
         _text = sent_tokenize(str(doc.text), engine=self.sent_engine)
         _doc = word_tokenize('SPLIT'.join(_text), engine=self.tokenize_engine)
-        #print(_doc)
         number_skip = 0
         seen_break = False
         _new_cut = []
-        for i,word in enumerate(_doc):
+        for i, word in enumerate(_doc):
             if 'SPLIT' in word:
                 if word.startswith("SPLIT"):
                     _new_cut.append("SPLIT")
@@ -137,9 +135,7 @@ def _sent(self, doc:Doc):
                     _new_cut.append(word)
             else:
                 _new_cut.append(word)
-        #print(_new_cut)
-        for i,word in enumerate(_new_cut):
-            #print(str(i),str(word))
+        for i, word in enumerate(_new_cut):
             if i-number_skip == len(doc) -1:
                 break
             elif i == 0:
@@ -166,14 +162,14 @@ def _dep(self, doc:Doc):
         heads = []
         lemmas = []
         offset = 0
-        _dep_temp = dependency_parsing(text,model=self.dependency_parsing_model, engine=self.dependency_parsing_engine, tag="list")
+        _dep_temp = dependency_parsing(text, model=self.dependency_parsing_model, engine=self.dependency_parsing_engine, tag="list")
         for i in _dep_temp:
-            idx,word,_,postag,_,_,head,dep,_,space =  i
+            idx, word, _, postag, _, _, head, dep, _, space =  i
             words.append(word)
             pos.append(postag)
             heads.append(int(head))
             deps.append(dep)
-            if space=='_':
+            if space == '_':
                 spaces.append(True)
             else:
                 spaces.append(False)
@@ -189,13 +185,11 @@ def _ner(self, doc:Doc):
         _ner_ =[]
         for i in _list_txt:
             _ner_.extend(self.ner.tag(i, pos=False))
-        #print(_ner_)
         _new_ner = []
         c=0
         _t=""
         for i,(w, tag) in enumerate(_ner_):
             len_w = len(w)
-            #print(str(i),str(w),str(tag))
             if i+1 == len(_ner_) and _t != "":
                 _new_ner[-1][1] = c+len_w
             elif i+1 == len(_ner_) and tag.startswith("B-"):
@@ -213,7 +207,6 @@ def _ner(self, doc:Doc):
                 _t=""
             c+=len_w
         _ents = []
-        #print(_new_ner)
         for start, end, label in _new_ner:
             span = doc.char_span(start, end, label=label, alignment_mode="contract")
             if span is None:
@@ -223,7 +216,7 @@ def _ner(self, doc:Doc):
 
         doc.ents = _ents
         return doc
-    
+
     def _vec(self):
         from pythainlp.word_vector import WordVector
         _wv = WordVector(model_name=self.word_vector_model)