another attempt to tip the scales, part 2

LostRuins · LostRuins · commit 1cdcb302ac75 · 2025-12-07T22:34:32.000+08:00
diff --git a/ggml/src/ggml-cuda/common.cuh b/ggml/src/ggml-cuda/common.cuh
@@ -136,10 +136,6 @@ static int ggml_cuda_highest_compiled_arch(const int arch) {
 #ifndef KCPP_LIMIT_CUDA_MAX_ARCH
     return arch;
 #else
-    if(arch==GGML_CUDA_CC_VOLTA) //fix for kcpp, if volta try return 610 instead
-    {
-        return GGML_CUDA_CC_DP4A;
-    }
     return (arch > KCPP_LIMIT_CUDA_MAX_ARCH ? KCPP_LIMIT_CUDA_MAX_ARCH : arch);
 #endif
 }
@@ -227,7 +223,7 @@ static const char * cu_get_error_str(CUresult err) {
 #define FP16_AVAILABLE
 #endif // defined(GGML_USE_HIP) || defined(GGML_USE_MUSA) || __CUDA_ARCH__ >= GGML_CUDA_CC_PASCAL
 
-#if defined(FP16_AVAILABLE) && __CUDA_ARCH__ != 610
+#if defined(FP16_AVAILABLE) && __CUDA_ARCH__ > GGML_CUDA_CC_VOLTA
 #define FAST_FP16_AVAILABLE
 #endif // defined(FP16_AVAILABLE) && __CUDA_ARCH__ != 610
 
@@ -267,7 +263,7 @@ static bool fp16_available(const int cc) {
 
 static bool fast_fp16_available(const int cc) {
     return GGML_CUDA_CC_IS_AMD(cc) ||
-        (GGML_CUDA_CC_IS_NVIDIA(cc) && fp16_available(cc) && cc > 610) ||
+        (GGML_CUDA_CC_IS_NVIDIA(cc) && fp16_available(cc) && cc > GGML_CUDA_CC_VOLTA) ||
         (GGML_CUDA_CC_IS_MTHREADS(cc) && fp16_available(cc));
 }