Use cublas bf16. (#101)

2025-06-19 19:58:35 +00:00 · 2023-07-07 08:00:12 +01:00
parent c71a38deb7
commit 02b5c38049
2 changed files with 13 additions and 3 deletions
--- a/candle-core/src/cuda_backend.rs
+++ b/candle-core/src/cuda_backend.rs
@ -827,8 +827,17 @@ impl CudaStorage {
        let elem_count = b * m * n;
        let dev = &self.device;
        let slice = match (&self.slice, &rhs.slice) {
-            (CudaStorageSlice::BF16(_lhs), CudaStorageSlice::BF16(_rhs)) => {
-                todo!("bf16")
+            (CudaStorageSlice::BF16(lhs), CudaStorageSlice::BF16(rhs)) => {
+                let lhs = &lhs.slice(lhs_l.start_offset()..);
+                let rhs = &rhs.slice(rhs_l.start_offset()..);
+                let cfg = gemm_config(bf16::ONE, bf16::ZERO, (b, m, n, k), lhs_l, rhs_l)?;
+                let mut out = unsafe { dev.alloc::<bf16>(elem_count) }?;
+                unsafe {
+                    self.device
+                        .blas
+                        .gemm_strided_batched(cfg, rhs, lhs, &mut out)
+                }?;
+                CudaStorageSlice::BF16(out)
            }
            (CudaStorageSlice::F16(lhs), CudaStorageSlice::F16(rhs)) => {
                let lhs = &lhs.slice(lhs_l.start_offset()..);