fix: keep discriminator/critic in training mode during generator backprop

franklinic · claude · franklinic · commit dcb0b3f6f140 · 2025-12-12T23:13:53.000-05:00
The Backpropagate method requires training mode to be enabled. Previous code set discriminator/critic to eval mode before calling Backpropagate, which would throw InvalidOperationException. Changed files: - ACGAN.cs: Keep discriminator in training mode, use BackwardWithInputGradient - StyleGAN.cs: Keep discriminator in training mode, use BackwardWithInputGradient - InfoGAN.cs: Keep discriminator and QNetwork in training mode - WGAN.cs: Keep critic in training mode - WGANGP.cs: Keep critic in training mode 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
diff --git a/src/NeuralNetworks/ACGAN.cs b/src/NeuralNetworks/ACGAN.cs
@@ -205,7 +205,8 @@ public ACGAN(
         // ----- Train Generator -----
 
         Generator.SetTrainingMode(true);
-        Discriminator.SetTrainingMode(false);
+        // Keep Discriminator in training mode - required for backpropagation
+        // We just don't call UpdateDiscriminatorParameters() during generator training
 
         // Generate new fake images
         var newGeneratorInput = ConcatenateTensors(noise, fakeLabels);
@@ -219,14 +220,12 @@ public ACGAN(
         T genClassLoss = CalculateClassificationLoss(genDiscOutput, fakeLabels, batchSize);
         T generatorLoss = NumOps.Add(genAuthLoss, genClassLoss);
 
-        // Backpropagate through discriminator and generator
+        // Backpropagate through discriminator to get input gradients, then through generator
         var genGradients = CalculateDiscriminatorGradients(genDiscOutput, fakeLabels, isReal: true, batchSize);
-        var discInputGradients = Discriminator.Backpropagate(genGradients);
-        Generator.Backpropagate(discInputGradients);
+        var discInputGradients = Discriminator.BackwardWithInputGradient(genGradients);
+        Generator.Backward(discInputGradients);
         UpdateGeneratorParameters();
 
-        Discriminator.SetTrainingMode(true);
-
         // Track losses
         _discriminatorLosses.Add(discriminatorLoss);
         _generatorLosses.Add(generatorLoss);
diff --git a/src/NeuralNetworks/InfoGAN.cs b/src/NeuralNetworks/InfoGAN.cs
@@ -269,7 +269,8 @@ public InfoGAN(
         // ----- Train Generator and Q Network -----
 
         Generator.SetTrainingMode(true);
-        Discriminator.SetTrainingMode(false);
+        // Keep Discriminator and QNetwork in training mode - required for backpropagation
+        // We just don't call UpdateDiscriminatorParameters() during generator training
         QNetwork.SetTrainingMode(true);
 
         // Generate new fake images
@@ -289,13 +290,13 @@ public InfoGAN(
         T miCoeff = NumOps.FromDouble(_mutualInfoCoefficient);
         T generatorLoss = NumOps.Add(ganLoss, NumOps.Multiply(miCoeff, mutualInfoLoss));
 
-        // Backpropagate through discriminator (for GAN loss)
+        // Backpropagate through discriminator (for GAN loss) to get input gradients
         var ganGradients = CalculateBinaryGradients(genPredictions, allRealLabels, batchSize);
-        var discInputGradients = Discriminator.Backpropagate(ganGradients);
+        var discInputGradients = Discriminator.BackwardWithInputGradient(ganGradients);
 
-        // Backpropagate through Q network (for MI loss)
+        // Backpropagate through Q network (for MI loss) to get input gradients
         var miGradients = CalculateMutualInfoGradients(predictedCodes, latentCodes, batchSize);
-        var qInputGradients = QNetwork.Backpropagate(miGradients);
+        var qInputGradients = QNetwork.BackwardWithInputGradient(miGradients);
 
         // Combine gradients
         var combinedGradients = new Tensor<T>(discInputGradients.Shape);
@@ -309,12 +310,10 @@ public InfoGAN(
         }
 
         // Backpropagate through generator
-        Generator.Backpropagate(combinedGradients);
+        Generator.Backward(combinedGradients);
         UpdateGeneratorParameters();
         UpdateQNetworkParameters();
 
-        Discriminator.SetTrainingMode(true);
-
         // Track losses
         _discriminatorLosses.Add(discriminatorLoss);
         _generatorLosses.Add(generatorLoss);
diff --git a/src/NeuralNetworks/StyleGAN.cs b/src/NeuralNetworks/StyleGAN.cs
@@ -288,7 +288,8 @@ public StyleGAN(
 
         MappingNetwork.SetTrainingMode(true);
         SynthesisNetwork.SetTrainingMode(true);
-        Discriminator.SetTrainingMode(false);
+        // Keep Discriminator in training mode - required for backpropagation
+        // We just don't call UpdateDiscriminatorParameters() during generator training
 
         // Generate new images
         var newLatentCodes = GenerateRandomLatentCodes(batchSize);
@@ -300,22 +301,20 @@ public StyleGAN(
         var allRealLabels = CreateLabelTensor(batchSize, NumOps.One);
         T generatorLoss = CalculateBinaryLoss(genPredictions, allRealLabels, batchSize);
 
-        // Backpropagate
+        // Backpropagate through discriminator to get input gradients
         var genGradients = CalculateBinaryGradients(genPredictions, allRealLabels, batchSize);
-        var discInputGradients = Discriminator.Backpropagate(genGradients);
+        var discInputGradients = Discriminator.BackwardWithInputGradient(genGradients);
 
         // Backprop through synthesis network
-        var styleGradients = SynthesisNetwork.Backpropagate(discInputGradients);
+        var styleGradients = SynthesisNetwork.BackwardWithInputGradient(discInputGradients);
 
         // Backprop through mapping network
-        MappingNetwork.Backpropagate(styleGradients);
+        MappingNetwork.Backward(styleGradients);
 
         // Update both generator networks
         UpdateSynthesisNetworkParameters();
         UpdateMappingNetworkParameters();
 
-        Discriminator.SetTrainingMode(true);
-
         return (discriminatorLoss, generatorLoss);
     }
 
diff --git a/src/NeuralNetworks/WGAN.cs b/src/NeuralNetworks/WGAN.cs
@@ -337,7 +337,8 @@ private T TrainCriticBatch(Tensor<T> images, bool isReal)
     private T TrainGeneratorBatch(Tensor<T> noise)
     {
         Generator.SetTrainingMode(true);
-        Critic.SetTrainingMode(false); // Freeze critic
+        // Keep Critic in training mode - required for backpropagation
+        // We just don't call UpdateCriticParameters() during generator training
 
         // Generate fake images
         var generatedImages = Generator.Predict(noise);
@@ -368,16 +369,14 @@ private T TrainGeneratorBatch(Tensor<T> noise)
         }
 
         // Backpropagate through critic to get gradients for generator output
-        var criticInputGradients = Critic.Backpropagate(gradients);
+        var criticInputGradients = Critic.BackwardWithInputGradient(gradients);
 
         // Backpropagate through generator
-        Generator.Backpropagate(criticInputGradients);
+        Generator.Backward(criticInputGradients);
 
         // Update generator parameters
         UpdateGeneratorParameters();
 
-        Critic.SetTrainingMode(true);
-
         return loss;
     }
 
diff --git a/src/NeuralNetworks/WGANGP.cs b/src/NeuralNetworks/WGANGP.cs
@@ -531,7 +531,8 @@ private T ComputeGradientPenalty(Tensor<T> realImages, Tensor<T> fakeImages, int
     private T TrainGeneratorBatch(Tensor<T> noise)
     {
         Generator.SetTrainingMode(true);
-        Critic.SetTrainingMode(false); // Freeze critic
+        // Keep Critic in training mode - required for backpropagation
+        // We just don't call UpdateCriticParameters() during generator training
 
         // Generate fake images
         var generatedImages = Generator.Predict(noise);
@@ -558,17 +559,15 @@ private T TrainGeneratorBatch(Tensor<T> noise)
             gradients[i, 0] = NumOps.Divide(NumOps.One, NumOps.FromDouble(batchSize));
         }
 
-        // Backpropagate through critic (frozen) to get gradients for generator
-        var criticInputGradients = Critic.Backpropagate(gradients);
+        // Backpropagate through critic to get gradients for generator
+        var criticInputGradients = Critic.BackwardWithInputGradient(gradients);
 
         // Backpropagate through generator
-        Generator.Backpropagate(criticInputGradients);
+        Generator.Backward(criticInputGradients);
 
         // Update generator parameters
         UpdateGeneratorParameters();
 
-        Critic.SetTrainingMode(true);
-
         return loss;
     }