PufferAI
diff --git a/‎config/robocode.ini‎
Lines changed: 33 additions & 43 deletions b/‎config/robocode.ini‎
Lines changed: 33 additions & 43 deletions
diff --git a/‎robocode.bin‎
1.22 MB b/‎robocode.bin‎
1.22 MB
@@ -1,97 +1,88 @@
 [base]
 env_name = robocode
-checkpoint_interval = 1000
+checkpoint_interval = 250
 
 [vec]
-total_agents = 4096
+total_agents = 8192
 num_buffers = 8
 num_threads = 8
 num_frozen_banks = 1
 frozen_bank_pct = 0.1
 
 [selfplay]
 enabled = 1
-max_size = 50
+max_size = 100
 swap_winrate = 0.8
 min_games = 2048
 elo_init = 0
 elo_k = 16
 seed = 42
-snapshot_interval = 100000000
-opp_timeout_steps = 50000000
+snapshot_interval = 200000000
+opp_timeout_steps = 100000000
 
 [env]
 num_agents = 2
 num_bots = 0
 width = 800
 height = 600
-reward_damage = 0.021068624865948224
-reward_spot = 0.004051935227131666
-dr = 0.0
+reward_damage = 0.1
+reward_spot = 9.61754e-06
+dr = 0.5
 bot_policy = 1
 max_ticks = 3000
 
 [policy]
-hidden_size = 64
-num_layers = 7.507560357123035
+hidden_size = 256
+num_layers = 2
 expansion_factor = 1
 
 [train]
 gpus = 1
 seed = 42
-total_timesteps = 1029041578.0
-learning_rate = 0.0026942930808368315
+total_timesteps = 10_000_000_000
+learning_rate = 0.000151026
 anneal_lr = 0
 min_lr_ratio = 0
-gamma = 0.9995099309223731
-gae_lambda = 0.9564827193729608
-replay_ratio = 3.2511695993037666
-clip_coef = 0.4579889109958539
-vf_coef = 2.1167609420658073
+gamma = 0.944963
+gae_lambda = 0.976712
+replay_ratio = 0.32871
+clip_coef = 0.989056
+vf_coef = 5
 vf_clip_coef = 0.01
-max_grad_norm = 0.1
-ent_coef = 0.00019367286414309862
+max_grad_norm = 3.07396
+ent_coef = 1e-05
 anneal_ent_coef = 0
 min_ent_coef_ratio = 0.1
-beta1 = 0.9823321577322727
-beta2 = 0.9986847318526075
-eps = 3.246193108635111e-08
-minibatch_size = 65536
-horizon = 128
-vtrace_rho_clip = 4.442952029772186
-vtrace_c_clip = 2.61275207877082
-prio_alpha = 0.6684066423373816
-prio_beta0 = 0.26728580880720837
+beta1 = 0.99738
+beta2 = 0.998954
+eps = 1.95855e-12
+minibatch_size = 8192
+horizon = 64
+vtrace_rho_clip = 1.51439
+vtrace_c_clip = 3.89253
+prio_alpha = 0.153154
+prio_beta0 = 0.923301
 
 [sweep]
-gpus = 8
-max_trial_seconds = 0
-match_enemy_model_path = ''
+match_enemy_model_path = 'resources/robocode/best_robo.bin'
 match_num_games = 4096
 match_max_ticks = 4096
 match_enemy_hidden_size = 1024
 match_enemy_num_layers = 2.69591
 bot_eval = True
 bot_eval_episodes = 32768
 bot_eval_envs = 4096
-bot_eval_burnin_episodes = 0
-bot_eval_policy = 1
+bot_eval_burnin_episodes = 4096
+bot_eval_policy = -1
 bot_eval_max_ticks = 0
 downsample = 1
 metric = bot_perf
-metric_distribution = linear
-goal = maximize
-max_suggestion_cost = 3600
-max_runs = 1200
-use_gpu = True
-prune_pareto = True
-early_stop_quantile = 0.3
 
 [sweep.train.total_timesteps]
 distribution = log_normal
 min = 1e8
-max = 1e11
-mean = 1e9
+max = 1e9
+mean = 5e8
 scale = auto
 
 [sweep.env.reward_damage]
@@ -107,4 +98,3 @@ min = 0.0
 max = 0.01
 mean = 0.001
 scale = auto
-