candle

mirror of https://github.com/huggingface/candle.git synced 2025-06-16 02:38:10 +00:00

Files

Amélie Royer 2423d633fc add dynamic position encoding to Siglip (#2770 )

* add dynamic position encoding

* remove debug messages

2025-02-14 13:50:50 +01:00

main.rs

add dynamic position encoding to Siglip (#2770 )

2025-02-14 13:50:50 +01:00

README.md

Add the SigLIP model. (#2515 )

2024-09-28 23:48:00 +02:00

README.md

SigLIP

SigLIP is multi-modal text-vision model that improves over CLIP by using a sigmoid based loss, HuggingFace.

Running an example

$ cargo run --features cuda -r --example siglip -
softmax_image_vec: [2.1912122e-14, 2.3624872e-14, 1.0, 1.0, 2.4787932e-8, 3.2784535e-12]


Results for image: candle-examples/examples/stable-diffusion/assets/stable-diffusion-xl.jpg

Probability: 0.0000% Text: a cycling race 
Probability: 0.0000% Text: a photo of two cats 
Probability: 100.0000% Text: a robot holding a candle 


Results for image: candle-examples/examples/yolo-v8/assets/bike.jpg

Probability: 100.0000% Text: a cycling race 
Probability: 0.0000% Text: a photo of two cats 
Probability: 0.0000% Text: a robot holding a candle