fix: Flash Attention compatibility check for SM_1xx (RTX 5000 series)

ice0 · ice0 · commit ea1b6b0eb5c1 · 2025-04-12T13:05:43.000+07:00
Fixed build error Includes the original commit from PR OpenNMT#1873
diff --git a/src/models/model.cc b/src/models/model.cc
@@ -844,14 +844,15 @@ namespace ctranslate2 {
                      " running independently a model in each device");
       }
 
+      bool supports_flash_attention = false;
       if (device == Device::CUDA) {
         int device_id = ctranslate2::get_device_index(ctranslate2::Device::CUDA);
         auto dprops = ctranslate2::cuda::get_device_properties(device_id);
         float compute_capability = dprops.major + (dprops.minor / 10.0f);
         
         // Minimum compute capability for Flash Attention is Ampere (8.0)
         const float min_flash_attn_compute_capability = 8.0f;
-        bool supports_flash_attention = compute_capability >= min_flash_attn_compute_capability;
+        supports_flash_attention = compute_capability >= min_flash_attn_compute_capability;
       }
       
       if (use_flash_attention && (device != Device::CUDA || !supports_flash_attention)) {

Original file line number	Diff line number	Diff line change
`@@ -844,14 +844,15 @@ namespace ctranslate2 {`
`844`	`844`	`" running independently a model in each device");`
`845`	`845`	`}`
`846`	`846`
	`847`	`+ bool supports_flash_attention = false;`
`847`	`848`	`if (device == Device::CUDA) {`
`848`	`849`	`int device_id = ctranslate2::get_device_index(ctranslate2::Device::CUDA);`
`849`	`850`	`auto dprops = ctranslate2::cuda::get_device_properties(device_id);`
`850`	`851`	`float compute_capability = dprops.major + (dprops.minor / 10.0f);`
`851`	`852`
`852`	`853`	`// Minimum compute capability for Flash Attention is Ampere (8.0)`
`853`	`854`	`const float min_flash_attn_compute_capability = 8.0f;`
`854`		`- bool supports_flash_attention = compute_capability >= min_flash_attn_compute_capability;`
	`855`	`+ supports_flash_attention = compute_capability >= min_flash_attn_compute_capability;`
`855`	`856`	`}`
`856`	`857`
`857`	`858`	`if (use_flash_attention && (device != Device::CUDA \|\| !supports_flash_attention)) {`