a2s_project/new_utils.py at master · eneugut/a2s_project · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
from numpy import array
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import torch
import numpy as np
import re

#path = './datasets/nottingham_database/nottingham_parsed.txt'

label_encoder = LabelEncoder()
onehot_encoder = OneHotEncoder(categories=['A','B','C'], sparse=False)

def get_encoded_data(data):
    """
    returns data in one hot encoding
    """
    print("One-Hot encoding data...")

    values = array(data)

    # integer encode
    integer_encoded = label_encoder.fit_transform(values)

    # binary encode
    integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)
    onehot_encoded = onehot_encoder.fit_transform(integer_encoded)

    # return encoded data as well as vocab size
    return integer_encoded
    #, len(onehot_encoded[0])

def integer_encode(data):
    """
    returns dataset encoded into integers
    """
    values = array(data)

    integer_encoded = label_encoder.fit_transform(values)
    return integer_encoded