PufferAI
diff --git a/‎config/robocode.ini‎
Lines changed: 38 additions & 31 deletions b/‎config/robocode.ini‎
Lines changed: 38 additions & 31 deletions
diff --git a/‎robocode.bin‎
4.56 MB b/‎robocode.bin‎
4.56 MB
@@ -1,9 +1,9 @@
 [base]
 env_name = robocode
-checkpoint_interval = 250
+checkpoint_interval = 100
 
 [vec]
-total_agents = 8192
+total_agents = 512
 num_buffers = 8
 num_threads = 8
 num_frozen_banks = 1
@@ -27,41 +27,41 @@ width = 800
 height = 600
 reward_damage = 0.0
 reward_spot = 0.0
-dr = 0.5
+dr = 0.181647854498119
 bot_policy = 1
 max_ticks = 3000
 
 [policy]
-hidden_size = 256
+hidden_size = 512
 num_layers = 2
 expansion_factor = 1
 
 [train]
 gpus = 1
 seed = 42
-total_timesteps = 25_000_000_000
-learning_rate = 0.000151026
+total_timesteps = 1_000_000_000
+learning_rate = 0.0002253286413949516
 anneal_lr = 0
 min_lr_ratio = 0
-gamma = 0.944963
-gae_lambda = 0.976712
-replay_ratio = 0.32871
-clip_coef = 0.989056
-vf_coef = 5
-vf_clip_coef = 0.01
-max_grad_norm = 3.07396
+gamma = 0.9998480946489037
+gae_lambda = 0.9786838910227905
+replay_ratio = 0.6875892151812739
+clip_coef = 0.27868997013647245
+vf_coef = 2.7494762521624527
+vf_clip_coef = 0.1561600948481602
+max_grad_norm = 5.0
 ent_coef = 1e-05
 anneal_ent_coef = 0
 min_ent_coef_ratio = 0.1
-beta1 = 0.99738
-beta2 = 0.998954
-eps = 1.95855e-12
-minibatch_size = 8192
-horizon = 64
-vtrace_rho_clip = 1.51439
-vtrace_c_clip = 3.89253
-prio_alpha = 0.153154
-prio_beta0 = 0.923301
+beta1 = 0.9895985201801225
+beta2 = 0.9993748822217898
+eps = 8.79216857698271e-12
+minibatch_size = 32768
+horizon = 1024
+vtrace_rho_clip = 5.0
+vtrace_c_clip = 5.0
+prio_alpha = 0.5123292311684591
+prio_beta0 = 1.0
 
 [sweep]
 match_enemy_model_path = 'resources/robocode/best_robo.bin'
@@ -85,16 +85,23 @@ max = 1e9
 mean = 5e8
 scale = auto
 
-[sweep.env.reward_damage]
-distribution = uniform
-min = 0.0
-max = 0.1
-mean = 0.01
-scale = auto
+#[sweep.env.reward_damage]
+#distribution = uniform
+#min = 0.0
+#max = 0.1
+#mean = 0.01
+#scale = auto
+
+#[sweep.env.reward_spot]
+#distribution = uniform
+#min = 0.0
+#max = 0.01
+#mean = 0.001
+#scale = auto
 
-[sweep.env.reward_spot]
+[sweep.env.dr]
 distribution = uniform
 min = 0.0
-max = 0.01
-mean = 0.001
+max = 0.6
+mean = 0.3
 scale = auto