Load a trained checkpoint in the mnist example. (#280)

2025-06-16 18:48:51 +00:00 · 2023-07-30 17:01:45 +01:00
parent 38ff693af0
commit a8d8f9f206
1 changed files with 36 additions and 3 deletions
--- a/candle-examples/examples/mnist-training/main.rs
+++ b/candle-examples/examples/mnist-training/main.rs
@ -83,6 +83,27 @@ impl VarStore {
        safetensors::tensor::serialize_to_file(data, &None, path.as_ref())?;
        Ok(())
    }
    fn load<P: AsRef<std::path::Path>>(&mut self, path: P) -> Result<()> {
        use candle::safetensors::Load;
        let path = path.as_ref();
        let data = unsafe { candle::safetensors::MmapedFile::new(path)? };
        let data = data.deserialize()?;
        let mut tensor_data = self.data.lock().unwrap();
        for (name, var) in tensor_data.tensors.iter_mut() {
            match data.tensor(name) {
                Ok(data) => {
                    let data: Tensor = data.load(var.device())?;
                    if let Err(err) = var.set(&data) {
                        candle::bail!("error setting {name} using data from {path:?}: {err}",)
                    }
                }
                Err(_) => candle::bail!("cannot find tensor for {name}"),
            }
        }
        Ok(())
    }
 }
 fn linear_z(in_dim: usize, out_dim: usize, vs: VarStore) -> Result<Linear> {
@ -145,6 +166,7 @@ impl Model for Mlp {
 fn training_loop<M: Model>(
    m: candle_nn::vision::Dataset,
    learning_rate: f64,
    load: Option<String>,
    save: Option<String>,
 ) -> anyhow::Result<()> {
    let dev = candle::Device::cuda_if_available(0)?;
@ -156,9 +178,14 @@ fn training_loop<M: Model>(
        .unsqueeze(1)?
        .to_device(&dev)?;
-    let vs = VarStore::new(DType::F32, dev.clone());
+    let mut vs = VarStore::new(DType::F32, dev.clone());
    let model = M::new(vs.clone())?;
    if let Some(load) = load {
        println!("loading weights from {load}");
        vs.load(&load)?
    }
    let all_vars = vs.all_vars();
    let all_vars = all_vars.iter().collect::<Vec<_>>();
    let sgd = candle_nn::SGD::new(&all_vars, learning_rate);
@ -208,6 +235,10 @@ struct Args {
    /// The file where to save the trained weights, in safetensors format.
    #[arg(long)]
    save: Option<String>,
    /// The file where to load the trained weights from, in safetensors format.
    #[arg(long)]
    load: Option<String>,
 }
 pub fn main() -> anyhow::Result<()> {
@ -221,8 +252,10 @@ pub fn main() -> anyhow::Result<()> {
    match args.model {
        WhichModel::Linear => {
-            training_loop::<LinearModel>(m, args.learning_rate.unwrap_or(1.), args.save)
+            training_loop::<LinearModel>(m, args.learning_rate.unwrap_or(1.), args.load, args.save)
        }
        WhichModel::Mlp => {
            training_loop::<Mlp>(m, args.learning_rate.unwrap_or(0.01), args.load, args.save)
        }
        WhichModel::Mlp => training_loop::<Mlp>(m, args.learning_rate.unwrap_or(0.01), args.save),
    }
 }