Use the faster rms-norm kernel for llama. (#2107)

* Use the faster rms-norm kernel for llama. * Use the fast variant by default.
2025-06-20 04:00:28 +00:00 · 2024-04-22 18:52:00 +02:00
parent 618ecf5e23
commit b2e816752b
2 changed files with 18 additions and 4 deletions
--- a/candle-transformers/src/models/with_tracing.rs
+++ b/candle-transformers/src/models/with_tracing.rs
@ -180,6 +180,11 @@ impl RmsNorm {
        let inner = candle_nn::rms_norm(size, eps, vb)?;
        Ok(Self { inner, span })
    }
+
+    pub fn forward_diff(&self, x: &Tensor) -> Result<Tensor> {
+        let _enter = self.span.enter();
+        self.inner.forward_diff(x)
+    }
 }

 impl Module for RmsNorm {