gpu layer offloading disabled for phi models in clblast

LostRuins · LostRuins · commit d9a7bd577a4b · 2024-01-25T17:40:05.000+08:00
diff --git a/expose.cpp b/expose.cpp
@@ -169,13 +169,9 @@ extern "C"
             {
                 printf("\n---\nIdentified as RWKV model: (ver %d)\nAttempting to Load...\n---\n", file_format);
             }
-            else if(file_format==FileFormat::GGUF_FALCON)
-            {
-                printf("\n---\nIdentified as FALCON model: (ver %d)\nAttempting to Load...\n---\n", file_format);
-            }
             else
             {
-                printf("\n---\nIdentified as LLAMA model: (ver %d)\nAttempting to Load...\n---\n", file_format);
+                printf("\n---\nIdentified as GGUF model: (ver %d)\nAttempting to Load...\n---\n", file_format);
             }
             ModelLoadResult lr = gpttype_load_model(inputs, file_format, file_format_meta);
             if (lr == ModelLoadResult::FAIL || lr == ModelLoadResult::RETRY_LOAD)
diff --git a/gpttype_adapter.cpp b/gpttype_adapter.cpp
@@ -141,7 +141,7 @@ static std::string FileFormatTokenizeID(int id, FileFormat file_format)
     {
         return std::string(llama_v3_token_to_str(llama_ctx_v3, id));
     }
-    else if(file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+    else if(file_format == FileFormat::GGUF_GENERIC)
     {
         return std::string(llama_token_to_str(llama_ctx_v4, id));
     }
@@ -153,7 +153,7 @@ static std::string FileFormatTokenizeID(int id, FileFormat file_format)
 
 static void TokenizeString(const std::string & str_to_tokenize, std::vector<int> & output_tokens, FileFormat file_format)
 {
-    if (file_format == FileFormat::GGML || file_format == FileFormat::GGHF || file_format == FileFormat::GGJT || file_format == FileFormat::GGJT_2  || file_format == FileFormat::GGJT_3 || file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+    if (file_format == FileFormat::GGML || file_format == FileFormat::GGHF || file_format == FileFormat::GGJT || file_format == FileFormat::GGJT_2  || file_format == FileFormat::GGJT_3 || file_format == FileFormat::GGUF_GENERIC)
     {
         if(file_format == FileFormat::GGHF || file_format == FileFormat::GGJT || file_format == FileFormat::GGJT_2 )
         {
@@ -182,9 +182,9 @@ static int GetEosID(FileFormat file_format, int32_t n_vocab)
 {
     unsigned int eosID = 0;
 
-    if(file_format == FileFormat::GGML || file_format == FileFormat::GGHF || file_format == FileFormat::GGJT || file_format == FileFormat::GGJT_2 || file_format == FileFormat::GGJT_3 || file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+    if(file_format == FileFormat::GGML || file_format == FileFormat::GGHF || file_format == FileFormat::GGJT || file_format == FileFormat::GGJT_2 || file_format == FileFormat::GGJT_3 || file_format == FileFormat::GGUF_GENERIC)
     {
-        if(file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+        if(file_format == FileFormat::GGUF_GENERIC)
         {
             eosID = llama_token_eos(&(llama_ctx_v4->model));
         }
@@ -696,7 +696,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
     file_format = in_file_format;
     n_threads = kcpp_params->n_threads = inputs.threads;
     n_blasthreads = kcpp_params->n_threads_batch = inputs.blasthreads;
-    bool isGguf = (file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON);
+    bool isGguf = (file_format == FileFormat::GGUF_GENERIC);
 
     n_batch = kcpp_params->n_batch = (isGguf?normalbatchsize:smallbatchsize);
     modelname = kcpp_params->model = inputs.model_filename;
@@ -712,7 +712,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
     auto clamped_max_context_length = inputs.max_context_length;
 
     if(clamped_max_context_length>16384 &&
-    file_format != FileFormat::GGUF_LLAMA && file_format!=FileFormat::GGUF_FALCON)
+    file_format != FileFormat::GGUF_GENERIC)
     {
         printf("Warning: Only GGUF models can use max context above 16k. Max context lowered to 16k.\n");
         clamped_max_context_length = 16384;
@@ -748,7 +748,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
         {
             //approximate NTK aware ctx
             auto effectivenctx = kcpp_params->n_ctx;
-            if((file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON) && file_format_meta.n_ctx_train > 2048)
+            if((file_format == FileFormat::GGUF_GENERIC) && file_format_meta.n_ctx_train > 2048)
             {
                 float factor = file_format_meta.n_ctx_train/2048;
                 effectivenctx = effectivenctx/factor;
@@ -781,7 +781,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
 
     printf("System Info: %s\n", llama_print_system_info());
     #if defined(GGML_USE_CUBLAS)
-    if(file_format!=FileFormat::GGUF_LLAMA && file_format!=FileFormat::GGUF_FALCON)
+    if(file_format!=FileFormat::GGUF_GENERIC)
     {
         if(ggml_v3_cpu_has_gpublas() && cu_parseinfo_maindevice>0)
         {
@@ -915,7 +915,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
         }
         return ModelLoadResult::SUCCESS;
     }
-    else if(file_format==FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+    else if(file_format==FileFormat::GGUF_GENERIC)
     {
         llama_model_params model_params = llama_model_default_params();
         llama_context_params llama_ctx_params = llama_context_default_params();
@@ -932,10 +932,11 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
         model_params.use_mmap = inputs.use_mmap;
         model_params.use_mlock = inputs.use_mlock;
         model_params.n_gpu_layers = inputs.gpulayers;
+
         #if defined(GGML_USE_CLBLAST)
-        if(file_format==FileFormat::GGUF_FALCON && model_params.n_gpu_layers>0)
+        if(file_format==FileFormat::GGUF_GENERIC && (file_format_meta.model_architecture == GGUFArch::FALCON || file_format_meta.model_architecture == GGUFArch::PHI) && model_params.n_gpu_layers>0)
         {
-            printf("\nGPU layer offload for GGUF FALCON on OpenCL is known to have issues, it has been set to 0.\n");
+            printf("\nOpenCL does not support GPU Layer offloading for this model architecture! GPU Offload has been disabled.\n");
             model_params.n_gpu_layers = 0;
         }
         #endif
@@ -1642,13 +1643,13 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o
     else
     {
         bool triggersc = useSmartContext;
-        if(useContextShift && (file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON))
+        if(useContextShift && (file_format == FileFormat::GGUF_GENERIC))
         {
             PurgeMissingTokens(llama_ctx_v4, current_context_tokens, embd_inp, inputs.max_length, nctx);
             triggersc = false;
         }
         ContextFastForward(current_context_tokens, embd_inp, n_past, last_n_tokens, nctx, smartcontext, triggersc, false);
-        if(file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+        if(file_format == FileFormat::GGUF_GENERIC)
         {
             llama_kv_cache_seq_rm(llama_ctx_v4, 0, n_past, -1);
         }
@@ -1669,7 +1670,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o
     {
         //for non llama, limit to 256
         int bbs = blasbatchsize;
-        if (file_format != FileFormat::GGML && file_format != FileFormat::GGHF && file_format != FileFormat::GGJT && file_format != FileFormat::GGJT_2 && file_format != FileFormat::GGJT_3 && file_format != FileFormat::GGUF_LLAMA && file_format!=FileFormat::GGUF_FALCON)
+        if (file_format != FileFormat::GGML && file_format != FileFormat::GGHF && file_format != FileFormat::GGJT && file_format != FileFormat::GGJT_2 && file_format != FileFormat::GGJT_3 && file_format != FileFormat::GGUF_GENERIC)
         {
             bbs = (blasbatchsize > 256 ? 256 : blasbatchsize);
         }
@@ -1821,7 +1822,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o
             {
                 evalres = (llama_v3_eval(llama_ctx_v3, embd.data(), embdsize, n_past, kcpp_params->n_threads)==0);
             }
-            else if(file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+            else if(file_format == FileFormat::GGUF_GENERIC)
             {
                 evalres = (llama_decode(llama_ctx_v4, llama_batch_get_one(embd.data(), embdsize, n_past, 0))==0);
             }
@@ -1934,9 +1935,9 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o
             float * logitsPtr;
             float lowestLogit = 0;
             int btsize = banned_token_ids.size();
-            if(file_format == FileFormat::GGML || file_format == FileFormat::GGHF || file_format == FileFormat::GGJT || file_format == FileFormat::GGJT_2 || file_format == FileFormat::GGJT_3 || file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+            if(file_format == FileFormat::GGML || file_format == FileFormat::GGHF || file_format == FileFormat::GGJT || file_format == FileFormat::GGJT_2 || file_format == FileFormat::GGJT_3 || file_format == FileFormat::GGUF_GENERIC)
             {
-                if(file_format == FileFormat::GGUF_LLAMA || file_format==FileFormat::GGUF_FALCON)
+                if(file_format == FileFormat::GGUF_GENERIC)
                 {
                     logitsPtr = llama_get_logits(llama_ctx_v4);
                 }
diff --git a/model_adapter.cpp b/model_adapter.cpp
@@ -255,7 +255,7 @@ void print_tok_vec(std::vector<float> &embd)
     else if(magic == 0x46554747)
     {
         fin.close();
-        fileformat = FileFormat::GGUF_LLAMA;
+        fileformat = FileFormat::GGUF_GENERIC;
 
         struct gguf_init_params ggufparams;
         ggufparams.no_alloc = true;
@@ -267,19 +267,8 @@ void print_tok_vec(std::vector<float> &embd)
         std::string modelarch = "";
         if (keyidx != -1) { modelarch = gguf_get_val_str(ctx, keyidx); }
 
-        if(modelarch=="llama")
-        {
-            fileformat = FileFormat::GGUF_LLAMA;
-        }
-        else if(modelarch=="falcon")
-        {
-            fileformat = FileFormat::GGUF_FALCON; //uses the same loader
-        }
-
-
         printf("\nThe reported GGUF Arch is: %s\n",(modelarch==""?"unknown":modelarch.c_str()));
 
-
         if(modelarch!="" && fileformatmeta!=nullptr)
         {
             std::string fkey = modelarch+".context_length";
@@ -289,6 +278,15 @@ void print_tok_vec(std::vector<float> &embd)
             }
             int filever = gguf_get_version(ctx);
             fileformatmeta->fileversion = filever;
+            fileformatmeta->model_architecture = GGUFArch::DEFAULT;
+            if(modelarch=="phi2")
+            {
+                fileformatmeta->model_architecture = GGUFArch::PHI;
+            }
+            else if(modelarch=="falcon")
+            {
+                fileformatmeta->model_architecture = GGUFArch::FALCON;
+            }
         }
         gguf_free(ctx);
     }
diff --git a/model_adapter.h b/model_adapter.h
@@ -21,7 +21,8 @@ enum FileFormat
     GGJT=3, // 3=(llama ggjt)
     GGJT_2=4, //newer llama format unshuffled
     GGJT_3=5, //using 16bit scalar
-    GGUF_LLAMA=6, //GGUF (llama newest ver)
+
+    GGUF_GENERIC=6, //GGUF (llama newest ver)
 
     GPTJ_1=100, //the very first super old GPTJ format
     GPTJ_2=101, //pygmalion, uses old ggml lib
@@ -47,14 +48,20 @@ enum FileFormat
 
     MPT_1=500, //first supported mpt version
 
-    GGUF_FALCON=600, //GGUF (falcon)
+};
 
+enum GGUFArch
+{
+    DEFAULT = 0, //used for llama and other generic gguf
+    FALCON = 1,
+    PHI = 2,
 };
 
 struct FileFormatExtraMeta
 {
     int n_ctx_train = 2048;
     int fileversion = 0;
+    GGUFArch model_architecture = GGUFArch::DEFAULT;
 };
 
 enum ModelLoadResult

Original file line number	Diff line number	Diff line change
`@@ -169,13 +169,9 @@ extern "C"`
`169`	`169`	`{`
`170`	`170`	`printf("\n---\nIdentified as RWKV model: (ver %d)\nAttempting to Load...\n---\n", file_format);`
`171`	`171`	`}`
`172`		`- else if(file_format==FileFormat::GGUF_FALCON)`
`173`		`- {`
`174`		`- printf("\n---\nIdentified as FALCON model: (ver %d)\nAttempting to Load...\n---\n", file_format);`
`175`		`- }`
`176`	`172`	`else`
`177`	`173`	`{`
`178`		`- printf("\n---\nIdentified as LLAMA model: (ver %d)\nAttempting to Load...\n---\n", file_format);`
	`174`	`+ printf("\n---\nIdentified as GGUF model: (ver %d)\nAttempting to Load...\n---\n", file_format);`
`179`	`175`	`}`
`180`	`176`	`ModelLoadResult lr = gpttype_load_model(inputs, file_format, file_format_meta);`
`181`	`177`	`if (lr == ModelLoadResult::FAIL \|\| lr == ModelLoadResult::RETRY_LOAD)`
Original file line number	Diff line number	Diff line change
`@@ -141,7 +141,7 @@ static std::string FileFormatTokenizeID(int id, FileFormat file_format)`
`141`	`141`	`{`
`142`	`142`	`return std::string(llama_v3_token_to_str(llama_ctx_v3, id));`
`143`	`143`	`}`
`144`		`- else if(file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`144`	`+ else if(file_format == FileFormat::GGUF_GENERIC)`
`145`	`145`	`{`
`146`	`146`	`return std::string(llama_token_to_str(llama_ctx_v4, id));`
`147`	`147`	`}`
`@@ -153,7 +153,7 @@ static std::string FileFormatTokenizeID(int id, FileFormat file_format)`
`153`	`153`
`154`	`154`	`static void TokenizeString(const std::string & str_to_tokenize, std::vector<int> & output_tokens, FileFormat file_format)`
`155`	`155`	`{`
`156`		`- if (file_format == FileFormat::GGML \|\| file_format == FileFormat::GGHF \|\| file_format == FileFormat::GGJT \|\| file_format == FileFormat::GGJT_2 \|\| file_format == FileFormat::GGJT_3 \|\| file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`156`	`+ if (file_format == FileFormat::GGML \|\| file_format == FileFormat::GGHF \|\| file_format == FileFormat::GGJT \|\| file_format == FileFormat::GGJT_2 \|\| file_format == FileFormat::GGJT_3 \|\| file_format == FileFormat::GGUF_GENERIC)`
`157`	`157`	`{`
`158`	`158`	`if(file_format == FileFormat::GGHF \|\| file_format == FileFormat::GGJT \|\| file_format == FileFormat::GGJT_2 )`
`159`	`159`	`{`
`@@ -182,9 +182,9 @@ static int GetEosID(FileFormat file_format, int32_t n_vocab)`
`182`	`182`	`{`
`183`	`183`	`unsigned int eosID = 0;`
`184`	`184`
`185`		`- if(file_format == FileFormat::GGML \|\| file_format == FileFormat::GGHF \|\| file_format == FileFormat::GGJT \|\| file_format == FileFormat::GGJT_2 \|\| file_format == FileFormat::GGJT_3 \|\| file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`185`	`+ if(file_format == FileFormat::GGML \|\| file_format == FileFormat::GGHF \|\| file_format == FileFormat::GGJT \|\| file_format == FileFormat::GGJT_2 \|\| file_format == FileFormat::GGJT_3 \|\| file_format == FileFormat::GGUF_GENERIC)`
`186`	`186`	`{`
`187`		`- if(file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`187`	`+ if(file_format == FileFormat::GGUF_GENERIC)`
`188`	`188`	`{`
`189`	`189`	`eosID = llama_token_eos(&(llama_ctx_v4->model));`
`190`	`190`	`}`
`@@ -696,7 +696,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`696`	`696`	`file_format = in_file_format;`
`697`	`697`	`n_threads = kcpp_params->n_threads = inputs.threads;`
`698`	`698`	`n_blasthreads = kcpp_params->n_threads_batch = inputs.blasthreads;`
`699`		`- bool isGguf = (file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON);`
	`699`	`+ bool isGguf = (file_format == FileFormat::GGUF_GENERIC);`
`700`	`700`
`701`	`701`	`n_batch = kcpp_params->n_batch = (isGguf?normalbatchsize:smallbatchsize);`
`702`	`702`	`modelname = kcpp_params->model = inputs.model_filename;`
`@@ -712,7 +712,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`712`	`712`	`auto clamped_max_context_length = inputs.max_context_length;`
`713`	`713`
`714`	`714`	`if(clamped_max_context_length>16384 &&`
`715`		`- file_format != FileFormat::GGUF_LLAMA && file_format!=FileFormat::GGUF_FALCON)`
	`715`	`+ file_format != FileFormat::GGUF_GENERIC)`
`716`	`716`	`{`
`717`	`717`	`printf("Warning: Only GGUF models can use max context above 16k. Max context lowered to 16k.\n");`
`718`	`718`	`clamped_max_context_length = 16384;`
`@@ -748,7 +748,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`748`	`748`	`{`
`749`	`749`	`//approximate NTK aware ctx`
`750`	`750`	`auto effectivenctx = kcpp_params->n_ctx;`
`751`		`- if((file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON) && file_format_meta.n_ctx_train > 2048)`
	`751`	`+ if((file_format == FileFormat::GGUF_GENERIC) && file_format_meta.n_ctx_train > 2048)`
`752`	`752`	`{`
`753`	`753`	`float factor = file_format_meta.n_ctx_train/2048;`
`754`	`754`	`effectivenctx = effectivenctx/factor;`
`@@ -781,7 +781,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`781`	`781`
`782`	`782`	`printf("System Info: %s\n", llama_print_system_info());`
`783`	`783`	`#if defined(GGML_USE_CUBLAS)`
`784`		`- if(file_format!=FileFormat::GGUF_LLAMA && file_format!=FileFormat::GGUF_FALCON)`
	`784`	`+ if(file_format!=FileFormat::GGUF_GENERIC)`
`785`	`785`	`{`
`786`	`786`	`if(ggml_v3_cpu_has_gpublas() && cu_parseinfo_maindevice>0)`
`787`	`787`	`{`
`@@ -915,7 +915,7 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`915`	`915`	`}`
`916`	`916`	`return ModelLoadResult::SUCCESS;`
`917`	`917`	`}`
`918`		`- else if(file_format==FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`918`	`+ else if(file_format==FileFormat::GGUF_GENERIC)`
`919`	`919`	`{`
`920`	`920`	`llama_model_params model_params = llama_model_default_params();`
`921`	`921`	`llama_context_params llama_ctx_params = llama_context_default_params();`
`@@ -932,10 +932,11 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`932`	`932`	`model_params.use_mmap = inputs.use_mmap;`
`933`	`933`	`model_params.use_mlock = inputs.use_mlock;`
`934`	`934`	`model_params.n_gpu_layers = inputs.gpulayers;`
	`935`	`+`
`935`	`936`	`#if defined(GGML_USE_CLBLAST)`
`936`		`- if(file_format==FileFormat::GGUF_FALCON && model_params.n_gpu_layers>0)`
	`937`	`+ if(file_format==FileFormat::GGUF_GENERIC && (file_format_meta.model_architecture == GGUFArch::FALCON \|\| file_format_meta.model_architecture == GGUFArch::PHI) && model_params.n_gpu_layers>0)`
`937`	`938`	`{`
`938`		`- printf("\nGPU layer offload for GGUF FALCON on OpenCL is known to have issues, it has been set to 0.\n");`
	`939`	`+ printf("\nOpenCL does not support GPU Layer offloading for this model architecture! GPU Offload has been disabled.\n");`
`939`	`940`	`model_params.n_gpu_layers = 0;`
`940`	`941`	`}`
`941`	`942`	`#endif`
`@@ -1642,13 +1643,13 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o`
`1642`	`1643`	`else`
`1643`	`1644`	`{`
`1644`	`1645`	`bool triggersc = useSmartContext;`
`1645`		`- if(useContextShift && (file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON))`
	`1646`	`+ if(useContextShift && (file_format == FileFormat::GGUF_GENERIC))`
`1646`	`1647`	`{`
`1647`	`1648`	`PurgeMissingTokens(llama_ctx_v4, current_context_tokens, embd_inp, inputs.max_length, nctx);`
`1648`	`1649`	`triggersc = false;`
`1649`	`1650`	`}`
`1650`	`1651`	`ContextFastForward(current_context_tokens, embd_inp, n_past, last_n_tokens, nctx, smartcontext, triggersc, false);`
`1651`		`- if(file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`1652`	`+ if(file_format == FileFormat::GGUF_GENERIC)`
`1652`	`1653`	`{`
`1653`	`1654`	`llama_kv_cache_seq_rm(llama_ctx_v4, 0, n_past, -1);`
`1654`	`1655`	`}`
`@@ -1669,7 +1670,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o`
`1669`	`1670`	`{`
`1670`	`1671`	`//for non llama, limit to 256`
`1671`	`1672`	`int bbs = blasbatchsize;`
`1672`		`- if (file_format != FileFormat::GGML && file_format != FileFormat::GGHF && file_format != FileFormat::GGJT && file_format != FileFormat::GGJT_2 && file_format != FileFormat::GGJT_3 && file_format != FileFormat::GGUF_LLAMA && file_format!=FileFormat::GGUF_FALCON)`
	`1673`	`+ if (file_format != FileFormat::GGML && file_format != FileFormat::GGHF && file_format != FileFormat::GGJT && file_format != FileFormat::GGJT_2 && file_format != FileFormat::GGJT_3 && file_format != FileFormat::GGUF_GENERIC)`
`1673`	`1674`	`{`
`1674`	`1675`	`bbs = (blasbatchsize > 256 ? 256 : blasbatchsize);`
`1675`	`1676`	`}`
`@@ -1821,7 +1822,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o`
`1821`	`1822`	`{`
`1822`	`1823`	`evalres = (llama_v3_eval(llama_ctx_v3, embd.data(), embdsize, n_past, kcpp_params->n_threads)==0);`
`1823`	`1824`	`}`
`1824`		`- else if(file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`1825`	`+ else if(file_format == FileFormat::GGUF_GENERIC)`
`1825`	`1826`	`{`
`1826`	`1827`	`evalres = (llama_decode(llama_ctx_v4, llama_batch_get_one(embd.data(), embdsize, n_past, 0))==0);`
`1827`	`1828`	`}`
`@@ -1934,9 +1935,9 @@ generation_outputs gpttype_generate(const generation_inputs inputs, generation_o`
`1934`	`1935`	`float * logitsPtr;`
`1935`	`1936`	`float lowestLogit = 0;`
`1936`	`1937`	`int btsize = banned_token_ids.size();`
`1937`		`- if(file_format == FileFormat::GGML \|\| file_format == FileFormat::GGHF \|\| file_format == FileFormat::GGJT \|\| file_format == FileFormat::GGJT_2 \|\| file_format == FileFormat::GGJT_3 \|\| file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`1938`	`+ if(file_format == FileFormat::GGML \|\| file_format == FileFormat::GGHF \|\| file_format == FileFormat::GGJT \|\| file_format == FileFormat::GGJT_2 \|\| file_format == FileFormat::GGJT_3 \|\| file_format == FileFormat::GGUF_GENERIC)`
`1938`	`1939`	`{`
`1939`		`- if(file_format == FileFormat::GGUF_LLAMA \|\| file_format==FileFormat::GGUF_FALCON)`
	`1940`	`+ if(file_format == FileFormat::GGUF_GENERIC)`
`1940`	`1941`	`{`
`1941`	`1942`	`logitsPtr = llama_get_logits(llama_ctx_v4);`
`1942`	`1943`	`}`