davidADSP · January 23, 2021 22:05
diff --git a/selfplay.py b/selfplay.py
 class SelfPlayEnv(env):
  # ...

    def continue_game(self):
        while self.current_player_num != self.agent_player_num:
            self.render()
            action = self.current_agent.choose_action(self, choose_best_action = False, mask_invalid_actions = False)
            observation, reward, done, _ = super(SelfPlayEnv, self).step(action)
            logger.debug(f'Rewards: {reward}')
            logger.debug(f'Done: {done}')

            if done:
                break

        return observation, reward, done, None
	class SelfPlayEnv(env):
	# ...

	def continue_game(self):
	while self.current_player_num != self.agent_player_num:
	self.render()
	action = self.current_agent.choose_action(self, choose_best_action = False, mask_invalid_actions = False)
	observation, reward, done, _ = super(SelfPlayEnv, self).step(action)
	logger.debug(f'Rewards: {reward}')
	logger.debug(f'Done: {done}')

	if done:
	break

	return observation, reward, done, None