refractor

vpj · vpj · commit 3524f4f899f0 · 2021-02-16T15:44:16.000+05:30
diff --git a/python_autocomplete/evaluate/__init__.py b/python_autocomplete/evaluate/__init__.py
@@ -5,12 +5,9 @@
 import torch.nn
 from torch import nn
 
-from labml import experiment, logger, lab, monit
-from labml.logger import Text, Style
-from labml.utils.pytorch import get_modules
 from labml_helpers.module import Module
 from python_autocomplete.dataset import Tokenizer, ID_CHARS
-from python_autocomplete.train import Configs, StateUpdater
+from python_autocomplete.train import StateUpdater
 
 EPS_PROB = 1e-6
 MIN_BEAM_PROB = 1e-4
@@ -221,176 +218,3 @@ def get_next_word(self, prompt: torch.Tensor, state: Any, rest: str, probs: List
 
     def rstrip(self, prompt: str) -> Tuple[str, List[int]]:
         return self.tokenizer.rstrip(prompt)
-
-
-def evaluate(predictor: Predictor, text: str):
-    line_no = 1
-    logs = [(f"{line_no: 4d}: ", Text.meta), (text[0], Text.subtle)]
-
-    correct = 0
-    i = 0
-    key_strokes = 0
-
-    while i + 1 < len(text):
-        prefix = text[:i + 1]
-        stripped, prompt = predictor.rstrip(prefix)
-        rest = prefix[len(stripped):]
-        prediction_complete = NextWordPredictionComplete(stripped, rest, 5)
-        prompt = torch.tensor(prompt, dtype=torch.long).unsqueeze(-1)
-
-        predictions = predictor.get_next_word(prompt, None, rest, [1.], prediction_complete, 5)
-        predictions.sort(key=lambda x: -x[0])
-        if predictions:
-            next_token = predictions[0].text[len(rest):]
-        else:
-            next_token = ''
-
-        if next_token and next_token == text[i + 1: i + 1 + len(next_token)]:
-            correct += len(next_token)
-            right = True
-        else:
-            next_token = text[i + 1]
-            right = False
-
-        for j, c in enumerate(next_token):
-            if c == '\n':
-                logger.log(logs)
-                line_no += 1
-                logs = [(f"{line_no: 4d}: ", Text.meta)]
-            elif c == '\r':
-                continue
-            else:
-                if right:
-                    if j == 0:
-                        logs.append((c, [Text.meta, Style.underline]))
-                    else:
-                        logs.append((c, [Text.success, Style.underline]))
-                else:
-                    logs.append((c, [Text.warning]))
-
-        i += len(next_token)
-        key_strokes += 1
-
-    logger.log(logs)
-
-    logger.inspect(accuracy=correct / (len(text) - 1),
-                   key_strokes=key_strokes,
-                   length=len(text))
-
-
-def anomalies(predictor: Predictor, text: str):
-    line_no = 1
-    logs = [(f"{line_no: 4d}: ", Text.meta), (text[0], Text.subtle)]
-
-    i = 0
-
-    while i + 1 < len(text):
-        #             print(i, self.predictor.prompt)
-        preds, _ = predictor.get_predictions(text[:i + 1], None, calc_probs=True)
-        preds = preds[0, :]
-        c = text[i + 1]
-
-        if c == '\n':
-            logger.log(logs)
-            line_no += 1
-            logs = [(f"{line_no: 4d}: ", Text.meta)]
-        elif c == '\r':
-            continue
-        elif c not in predictor.tokenizer.stoi:
-            logs.append(c)
-        else:
-            next_id = predictor.tokenizer.stoi[c]
-            prob = preds[next_id]
-            if prob > 0.9:
-                logs.append((c, [Style.bold, Text.success, Style.underline]))
-            elif prob > 0.75:
-                logs.append((c, [Text.success, Style.underline]))
-            elif prob > 0.2:
-                logs.append(c)
-            elif prob > 0.1:
-                logs.append((c, [Text.warning, Style.underline]))
-            elif prob > 0.01:
-                logs.append((c, [Style.bold, Text.warning, Style.underline]))
-            elif prob > 0.001:
-                logs.append((c, [Text.danger, Style.underline]))
-            else:
-                logs.append((c, [Style.bold, Text.danger, Style.underline]))
-
-        i += 1
-
-    logger.log(logs)
-
-
-def complete(predictor: Predictor, text: str, completion: int):
-    line_no = 1
-    logs = [(f"{line_no: 4d}: ", Text.meta), (text[0], Text.subtle)]
-
-    i = 0
-    given = len(text)
-
-    while i + 1 < given + completion:
-        if len(text) > i + 1:
-            c = text[i + 1]
-        else:
-            c, _ = predictor.get_next_token(text[:i + 1], None)
-
-        if c == '\n':
-            logger.log(logs)
-            line_no += 1
-            logs = [(f"{line_no: 4d}: ", Text.meta)]
-        elif c != '\r':
-            if len(text) > i + 1:
-                logs.append(c)
-            else:
-                logs.append((c, [Style.bold]))
-
-        if len(text) <= i + 1:
-            text += c
-
-        i += 1
-
-    logger.log(logs)
-
-
-def get_predictor() -> Predictor:
-    conf = Configs()
-    experiment.evaluate()
-
-    # This will download a pretrained model checkpoint and some cached files.
-    # It will download the archive as `saved_checkpoint.tar.gz` and extract it.
-    #
-    # If you have a locally trained model load it directly with
-    # run_uuid = 'RUN_UUID'
-    # And for latest checkpoint
-    # checkpoint = None
-
-    run_uuid = 'a6cff3706ec411ebadd9bf753b33bae6'  # bpe
-    checkpoint = None
-    # run_uuid, checkpoint = experiment.load_bundle(
-    #     lab.get_path() / 'saved_checkpoint.tar.gz',
-    #     url='https://github.com/lab-ml/python_autocomplete/releases/download/0.0.4/transformer_checkpoint.tar.gz')
-
-    conf_dict = experiment.load_configs(run_uuid)
-    conf_dict['text.is_load_data'] = False
-    experiment.configs(conf, conf_dict)
-    experiment.add_pytorch_models(get_modules(conf))
-    experiment.load(run_uuid, checkpoint)
-
-    experiment.start()
-    conf.model.eval()
-    return Predictor(conf.model, conf.text.tokenizer,
-                     state_updater=conf.state_updater,
-                     is_token_by_token=conf.is_token_by_token)
-
-
-def main():
-    predictor = get_predictor()
-
-    with open(str(lab.get_data_path() / 'sample.py'), 'r') as f:
-        sample = f.read()
-    with monit.section('Evaluate'):
-        evaluate(predictor, sample)
-
-
-if __name__ == '__main__':
-    main()
diff --git a/python_autocomplete/evaluate/anomalies.py b/python_autocomplete/evaluate/anomalies.py
@@ -0,0 +1,60 @@
+from labml import logger, lab, monit
+from labml.logger import Text, Style
+from python_autocomplete.evaluate import Predictor
+from python_autocomplete.evaluate.factory import get_predictor
+
+
+def anomalies(predictor: Predictor, text: str):
+    line_no = 1
+    logs = [(f"{line_no: 4d}: ", Text.meta), (text[0], Text.subtle)]
+
+    i = 0
+
+    while i + 1 < len(text):
+        #             print(i, self.predictor.prompt)
+        preds, _ = predictor.get_predictions(text[:i + 1], None, calc_probs=True)
+        preds = preds[0, :]
+        c = text[i + 1]
+
+        if c == '\n':
+            logger.log(logs)
+            line_no += 1
+            logs = [(f"{line_no: 4d}: ", Text.meta)]
+        elif c == '\r':
+            continue
+        elif c not in predictor.tokenizer.stoi:
+            logs.append(c)
+        else:
+            next_id = predictor.tokenizer.stoi[c]
+            prob = preds[next_id]
+            if prob > 0.9:
+                logs.append((c, [Style.bold, Text.success, Style.underline]))
+            elif prob > 0.75:
+                logs.append((c, [Text.success, Style.underline]))
+            elif prob > 0.2:
+                logs.append(c)
+            elif prob > 0.1:
+                logs.append((c, [Text.warning, Style.underline]))
+            elif prob > 0.01:
+                logs.append((c, [Style.bold, Text.warning, Style.underline]))
+            elif prob > 0.001:
+                logs.append((c, [Text.danger, Style.underline]))
+            else:
+                logs.append((c, [Style.bold, Text.danger, Style.underline]))
+
+        i += 1
+
+    logger.log(logs)
+
+
+def main():
+    predictor = get_predictor()
+
+    with open(str(lab.get_data_path() / 'sample.py'), 'r') as f:
+        sample = f.read()
+    with monit.section('Anomalies'):
+        anomalies(predictor, sample)
+
+
+if __name__ == '__main__':
+    main()
diff --git a/python_autocomplete/evaluate/eval_sample.py b/python_autocomplete/evaluate/eval_sample.py
@@ -0,0 +1,74 @@
+import torch
+
+from labml import logger, lab, monit
+from labml.logger import Text, Style
+from python_autocomplete.evaluate import NextWordPredictionComplete, Predictor
+from python_autocomplete.evaluate.factory import get_predictor
+
+
+def evaluate(predictor: Predictor, text: str):
+    line_no = 1
+    logs = [(f"{line_no: 4d}: ", Text.meta), (text[0], Text.subtle)]
+
+    correct = 0
+    i = 0
+    key_strokes = 0
+
+    while i + 1 < len(text):
+        prefix = text[:i + 1]
+        stripped, prompt = predictor.rstrip(prefix)
+        rest = prefix[len(stripped):]
+        prediction_complete = NextWordPredictionComplete(stripped, rest, 5)
+        prompt = torch.tensor(prompt, dtype=torch.long).unsqueeze(-1)
+
+        predictions = predictor.get_next_word(prompt, None, rest, [1.], prediction_complete, 5)
+        predictions.sort(key=lambda x: -x[0])
+        if predictions:
+            next_token = predictions[0].text[len(rest):]
+        else:
+            next_token = ''
+
+        if next_token and next_token == text[i + 1: i + 1 + len(next_token)]:
+            correct += len(next_token)
+            right = True
+        else:
+            next_token = text[i + 1]
+            right = False
+
+        for j, c in enumerate(next_token):
+            if c == '\n':
+                logger.log(logs)
+                line_no += 1
+                logs = [(f"{line_no: 4d}: ", Text.meta)]
+            elif c == '\r':
+                continue
+            else:
+                if right:
+                    if j == 0:
+                        logs.append((c, [Text.meta, Style.underline]))
+                    else:
+                        logs.append((c, [Text.success, Style.underline]))
+                else:
+                    logs.append((c, [Text.warning]))
+
+        i += len(next_token)
+        key_strokes += 1
+
+    logger.log(logs)
+
+    logger.inspect(accuracy=correct / (len(text) - 1),
+                   key_strokes=key_strokes,
+                   length=len(text))
+
+
+def main():
+    predictor = get_predictor()
+
+    with open(str(lab.get_data_path() / 'sample.py'), 'r') as f:
+        sample = f.read()
+    with monit.section('Evaluate'):
+        evaluate(predictor, sample)
+
+
+if __name__ == '__main__':
+    main()
diff --git a/python_autocomplete/evaluate/factory.py b/python_autocomplete/evaluate/factory.py
@@ -0,0 +1,35 @@
+from labml import experiment
+from labml.utils.pytorch import get_modules
+from python_autocomplete.evaluate import Predictor
+from python_autocomplete.train import Configs
+
+
+def get_predictor() -> Predictor:
+    conf = Configs()
+    experiment.evaluate()
+
+    # This will download a pretrained model checkpoint and some cached files.
+    # It will download the archive as `saved_checkpoint.tar.gz` and extract it.
+    #
+    # If you have a locally trained model load it directly with
+    # run_uuid = 'RUN_UUID'
+    # And for latest checkpoint
+    # checkpoint = None
+
+    run_uuid = 'a6cff3706ec411ebadd9bf753b33bae6'  # bpe
+    checkpoint = None
+    # run_uuid, checkpoint = experiment.load_bundle(
+    #     lab.get_path() / 'saved_checkpoint.tar.gz',
+    #     url='https://github.com/lab-ml/python_autocomplete/releases/download/0.0.4/transformer_checkpoint.tar.gz')
+
+    conf_dict = experiment.load_configs(run_uuid)
+    conf_dict['text.is_load_data'] = False
+    experiment.configs(conf, conf_dict)
+    experiment.add_pytorch_models(get_modules(conf))
+    experiment.load(run_uuid, checkpoint)
+
+    experiment.start()
+    conf.model.eval()
+    return Predictor(conf.model, conf.text.tokenizer,
+                     state_updater=conf.state_updater,
+                     is_token_by_token=conf.is_token_by_token)
diff --git a/python_autocomplete/evaluate/generate.py b/python_autocomplete/evaluate/generate.py
diff --git a/python_autocomplete/serve.py b/python_autocomplete/serve.py