InnerPeace-Wu · October 5, 2017 11:21
diff --git a/tf_gradient_clip_lr_decay.py b/tf_gradient_clip_lr_decay.py
 import tensorflow as tf

 #aplly exponential decay on learning rate
 global_step = tf.Variable(0, trainable=False)
 stater_learning_rate = lr #for start
 learning_rate = tf.train.exponential_decay(starter_learning_rate, global_step, 
                                           decay_steps, decay_rate, staircase=True)

 optimizer = tf.train.AdamOptimizer(learning_rate)

 #no clipping
 train_op = optimizer.minimize(loss, global_step=global_step)

 #global norm clipping.
 grad_vars = optimizer.compute_gradients(loss)
 grad = [x[0] for x in grad_vars]
 vars = [x[1] for x in grad_vars]
 grad, grad_norm = tf.clip_by_global_norm(grad, max_grad_norm)
 train_op = optimizer.apply_gradients(zip(grad, vars), global_step=global_step)

 #clip by value
 clipped_gvs = [(tf.clip_by_value(grad, min_val, max_val), var) for grad, var in grad_vars]
 train_op = optimizer.apply_gradients(clipped_gvs, global_step=global_step)
	import tensorflow as tf

	#aplly exponential decay on learning rate
	global_step = tf.Variable(0, trainable=False)
	stater_learning_rate = lr #for start
	learning_rate = tf.train.exponential_decay(starter_learning_rate, global_step,
	decay_steps, decay_rate, staircase=True)

	optimizer = tf.train.AdamOptimizer(learning_rate)

	#no clipping
	train_op = optimizer.minimize(loss, global_step=global_step)

	#global norm clipping.
	grad_vars = optimizer.compute_gradients(loss)
	grad = [x[0] for x in grad_vars]
	vars = [x[1] for x in grad_vars]
	grad, grad_norm = tf.clip_by_global_norm(grad, max_grad_norm)
	train_op = optimizer.apply_gradients(zip(grad, vars), global_step=global_step)

	#clip by value
	clipped_gvs = [(tf.clip_by_value(grad, min_val, max_val), var) for grad, var in grad_vars]
	train_op = optimizer.apply_gradients(clipped_gvs, global_step=global_step)