GridMind/src/gridmind/algorithms/base_learning_algorithm.py at 8849d513b6711e6c5d45bc40152cc1a5554ebfea · shuvoxcd01/GridMind · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
from abc import ABC, abstractmethod
import copy
import os
import time
from typing import Callable, Optional
import dill
from gridmind.policies.base_policy import BasePolicy
import logging
from gridmind.config import get_save_dir
from gridmind.utils.divergence.base_divergence_detector import BaseDivergenceDetector
from gridmind.utils.logtools.null_logger import NullWriter
from gridmind.utils.performance_evaluation.base_performance_evaluator import (
    BasePerformanceEvaluator,
)
from gridmind.wrappers.policy_wrappers.preprocessed_observation_policy_wrapper import (
    PreprocessedObservationPolicyWrapper,
)
from gymnasium import Env
from tqdm import trange


class BaseLearningAlgorithm(ABC):
    def __init__(
        self,
        name: str,
        env: Optional[Env] = None,
        summary_dir: Optional[str] = None,
        write_summary: bool = False,
    ) -> None:
        self.name = name
        self.logger = logging.getLogger(self.__class__.__name__)

        self.env = env

        if self.env is not None:
            env_name = self.env.spec.id if self.env.spec is not None else "unknown"
        else:
            env_name = "unknown"

        self.epoch_eval_interval = None

        self.perform_evaluation = False
        self.monitor_divergence = False
        self.stop_on_divergence = False

        self.summary_writer = NullWriter()
        self.write_summary = write_summary
        if self.write_summary:
            if summary_dir is None and get_save_dir() is None:
                raise ValueError(
                    "write_summary=True requires either summary_dir or "
                    "gridmind.config.set_save_dir() to be set."
                )
            self._initialize_summary_writer(summary_dir, env_name)

    def _initialize_summary_writer(
        self,
        summary_dir,
        env_name,
        extra_info: str = "",
        use_async_writer: bool = False,
    ):
        from torch.utils.tensorboard import SummaryWriter
        from gridmind.utils.logtools.async_tensorboard_logger import AsyncTensorboardLogger

        summary_dir = summary_dir if summary_dir is not None else get_save_dir()

        log_dir = os.path.join(
            summary_dir,
            env_name,
            "summaries",
            self.name,
            "run_" + time.strftime("%Y-%m-%d_%H-%M-%S") + extra_info,
        )
        if not os.path.exists(log_dir):
            os.makedirs(log_dir)

        self.summary_writer = (
            SummaryWriter(log_dir=log_dir)
            if not use_async_writer
            else AsyncTensorboardLogger(log_dir=log_dir)
        )

    def register_performance_evaluator(self, evaluator: BasePerformanceEvaluator):
        self.performance_evaluator = evaluator

        if self.performance_evaluator.policy_retriever_fn is None:
            self.performance_evaluator.policy_retriever_fn = self._get_policy

        if self.performance_evaluator.preprocessor_fn is None:
            self.performance_evaluator.preprocessor_fn = self._preprocess

        self.perform_evaluation = True
        self.epoch_eval_interval = evaluator.epoch_eval_interval

    def register_divergence_detector(self, detector: BaseDivergenceDetector):
        self.divergence_detector = detector
        self.monitor_divergence = True
        self.stop_on_divergence = detector.stop_on_divergence

    def report_policy(self):
        self.logger.info(f" Reporting policy: \n{self._get_policy()}")

    def report_state_values(self):
        return self._get_state_value_fn()

    def report_state_action_values(self):
        return self._get_state_action_value_fn()

    def _preprocess(self, observation):
        return observation

    def speculate_divergence(self):
        if self.current_avg_return is None or self.prev_avg_return is None:
            return False

        return self.current_avg_return < self.prev_avg_return * 0.5

    @abstractmethod
    def _get_state_value_fn(self, force_functional_interface: bool = True):
        raise NotImplementedError("This method must be overridden")

    @abstractmethod
    def _get_state_action_value_fn(self, force_functional_interface: bool = True):
        raise NotImplementedError("This method must be overridden")

    @abstractmethod
    def _get_policy(self):
        raise NotImplementedError("This method must be overridden")

    def get_state_value_fn(
        self, force_functional_interface: bool = True, autopreprocess: bool = False
    ):
        if not autopreprocess:
            return self._get_state_value_fn(
                force_functional_interface=force_functional_interface
            )

        state_value_fn = lambda s: self._get_state_value_fn(
            force_functional_interface=True
        )(self._preprocess(s))

        return state_value_fn

    def get_state_action_value_fn(
        self, force_functional_interface: bool = True, autopreprocess: bool = False
    ):
        if not autopreprocess:
            return self._get_state_action_value_fn(
                force_functional_interface=force_functional_interface
            )

        state_action_value_fn = lambda s, a: self._get_state_action_value_fn(
            force_functional_interface=True
        )(self._preprocess(s), a)

        return state_action_value_fn

    def get_policy(self, autopreprocess: bool = False):
        if not autopreprocess:
            return self._get_policy()

        policy = PreprocessedObservationPolicyWrapper(
            policy=self._get_policy(), preprocess_fn=self._preprocess
        )

        return policy

    @abstractmethod
    def set_policy(self, policy: BasePolicy, **kwargs):
        raise NotImplementedError("This method must be overridden")

    @abstractmethod
    def _train_episodes(
        self, num_episodes: int, prediction_only: bool, *args, **kwargs
    ):
        raise NotImplementedError("This method must be overridden")

    def get_policy_cloned(self):
        policy = self._get_policy()
        cloned_policy = copy.deepcopy(policy)

        return cloned_policy

    def train(
        self,
        num_episodes: Optional[int] = None,
        num_steps: Optional[int] = None,
        prediction_only: bool = False,
        save_policy: bool = True,
        *args,
        **kwargs,
    ):
        if num_episodes is not None and num_steps is not None:
            raise ValueError(
                "Please specify either num_episodes or num_steps, not both."
            )

        if num_episodes is not None:
            return self.train_episodes(
                num_episodes, prediction_only, save_policy, *args, **kwargs
            )

        if num_steps is not None:
            return self.train_steps(
                num_steps, prediction_only, save_policy, *args, **kwargs
            )

        raise ValueError("Please specify either num_episodes or num_steps.")

    def train_steps(
        self,
        num_steps: int,
        prediction_only: bool,
        save_policy: bool = True,
        *args,
        **kwargs,
    ):
        return self._training_wrapper(
            num_steps,
            prediction_only,
            save_policy,
            training_fn=self._train_steps,
            *args,
            **kwargs,
        )

    @abstractmethod
    def _train_steps(self, num_steps: int, prediction_only: bool, *args, **kwargs):
        raise NotImplementedError("This method must be overridden")

    def train_episodes(
        self,
        num_episodes: int,
        prediction_only: bool,
        save_policy: bool = True,
        *args,
        **kwargs,
    ):
        return self._training_wrapper(
            num_episodes,
            prediction_only,
            save_policy,
            training_fn=self._train_episodes,
            *args,
            **kwargs,
        )

    def _training_wrapper(
        self,
        num_iter: int,
        prediction_only: bool,
        save_policy: bool,
        training_fn: Callable,
        *args,
        **kwargs,
    ):
        num_outer_iter = 1
        num_inner_iter = num_iter

        if self.perform_evaluation or self.monitor_divergence:
            if self.epoch_eval_interval is None:
                self.epoch_eval_interval = num_iter // 10
            num_outer_iter = num_iter // self.epoch_eval_interval
            num_inner_iter = self.epoch_eval_interval

        for epoch in trange(num_outer_iter):
            if self.stop_on_divergence:
                policy_prev = self.get_policy_cloned()

            training_fn(num_inner_iter, prediction_only, *args, **kwargs)

            if self.perform_evaluation:
                performance_evaluation = (
                    self.performance_evaluator.evaluate_performance()
                )
                if performance_evaluation:
                    steps_count = epoch * num_inner_iter
                    if self.write_summary:
                        for key, value in performance_evaluation.items():
                            self.summary_writer.add_scalar(key, value, steps_count)

            if self.monitor_divergence and self.divergence_detector.detect_divergence():
                self.logger.warning("Divergence detected.")
                self._report_all_metrics()
                if self.stop_on_divergence:
                    self.logger.warning("Stopping training due to divergence.")
                    self.set_policy(policy_prev)
                    break

        if save_policy:
            env_name = self.env.spec.id if self.env.spec is not None else "unknown"

            if get_save_dir() is not None:
                saved_policy_dir = os.path.join(get_save_dir(), env_name)
                self.save_policy(saved_policy_dir)

    def _report_all_metrics(self):
        try:
            self.report_policy()
        except Exception as e:
            self.logger.error(f"Error while reporting policy: {e}")
        try:
            self.report_state_values()
        except Exception as e:
            self.logger.error(f"Error while reporting state values: {e}")
        try:
            self.report_state_action_values()
        except Exception as e:
            self.logger.error(f"Error while reporting state-action values: {e}")

        env_name = self.env.spec.id if self.env.spec is not None else "unknown"

        if get_save_dir() is not None:
            saved_policy_dir = os.path.join(get_save_dir(), env_name)
            self.save_policy(saved_policy_dir)

    def evaluate_policy(self, num_episodes: int):
        return self._train_episodes(num_episodes, prediction_only=True)

    def optimize_policy(self, num_episodes: int):
        return self.train_episodes(num_episodes, prediction_only=False)

    def save_policy(self, path: str):
        policy = self._get_policy()

        saved_policy_path = os.path.join(path, self.name + "_saved_policy.pkl")

        if not os.path.exists(path):
            os.makedirs(path)

        serialized_policy = dill.dumps(policy)

        with open(saved_policy_path, "wb") as file:
            file.write(serialized_policy)

    @staticmethod
    def load_policy(saved_policy_path: str):
        with open(saved_policy_path, "rb") as file:
            policy = dill.loads(file.read())

        return policy