allow rwkv6 to run although its broken

LostRuins · LostRuins · commit fc7fe2e7a0cb · 2024-09-09T20:50:58.000+08:00
diff --git a/gpttype_adapter.cpp b/gpttype_adapter.cpp
@@ -194,15 +194,18 @@ static void TokenizeString(const std::string & str_to_tokenize, std::vector<int>
             if(add_bos)
             {
                 llama_token bostoadd = llama_token_bos(&(llama_ctx_v4->model));
-                if(output_tokens.size()==0)
+                if(bostoadd != LLAMA_TOKEN_NULL) //if bos does not exist, do not add it
                 {
-                    output_tokens.push_back(bostoadd);
-                }
-                else
-                {
-                    if(output_tokens[0]!=bostoadd)
+                    if(output_tokens.size()==0)
                     {
-                        output_tokens.insert(output_tokens.begin(), 1, bostoadd);
+                        output_tokens.push_back(bostoadd);
+                    }
+                    else
+                    {
+                        if(output_tokens[0]!=bostoadd)
+                        {
+                            output_tokens.insert(output_tokens.begin(), 1, bostoadd);
+                        }
                     }
                 }
             }
@@ -1870,6 +1873,12 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
             }
         }
 
+        if(file_format_meta.model_architecture==GGUFArch::ARCH_RWKV)
+        {
+            printf("\nRWKV6 Overriding EOS and BOS IDs to 0\n");
+            llamamodel->vocab.special_bos_id = llamamodel->vocab.special_eos_id = 0;
+        }
+
         llama_ctx_params.flash_attn = kcpp_params->flash_attn;
         llama_ctx_params.type_k = (inputs.quant_k>1?GGML_TYPE_Q4_0:(inputs.quant_k==1?GGML_TYPE_Q8_0:GGML_TYPE_F16));
         llama_ctx_params.type_v = (inputs.quant_v>1?GGML_TYPE_Q4_0:(inputs.quant_v==1?GGML_TYPE_Q8_0:GGML_TYPE_F16));
@@ -3085,7 +3094,10 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
             if (!inputs.allow_eos_token && !inputs.bypass_eos_token)
             {
                 // set the logit of the eos token to very low to avoid sampling it
-                logitsPtr[eosID] = lowestLogit;
+                if(eosID!=LLAMA_TOKEN_NULL)
+                {
+                    logitsPtr[eosID] = lowestLogit;
+                }
                 if(eotID!=-1)
                 {
                     logitsPtr[eotID] = lowestLogit;
diff --git a/model_adapter.cpp b/model_adapter.cpp
@@ -314,6 +314,10 @@ void print_tok_vec(std::vector<float> &embd)
             {
                 fileformatmeta->model_architecture = GGUFArch::ARCH_QWEN2;
             }
+            else if(modelarch=="rwkv6")
+            {
+                fileformatmeta->model_architecture = GGUFArch::ARCH_RWKV;
+            }
             printf("Arch Category: %d\n",fileformatmeta->model_architecture);
 
         }
diff --git a/model_adapter.h b/model_adapter.h
@@ -58,6 +58,7 @@ enum GGUFArch
     ARCH_MAMBA = 3,
     ARCH_SOLAR = 4,
     ARCH_QWEN2 = 5,
+    ARCH_RWKV = 6,
 };
 
 struct FileFormatExtraMeta

Original file line number	Diff line number	Diff line change
`@@ -194,15 +194,18 @@ static void TokenizeString(const std::string & str_to_tokenize, std::vector<int>`
`194`	`194`	`if(add_bos)`
`195`	`195`	`{`
`196`	`196`	`llama_token bostoadd = llama_token_bos(&(llama_ctx_v4->model));`
`197`		`- if(output_tokens.size()==0)`
	`197`	`+ if(bostoadd != LLAMA_TOKEN_NULL) //if bos does not exist, do not add it`
`198`	`198`	`{`
`199`		`- output_tokens.push_back(bostoadd);`
`200`		`- }`
`201`		`- else`
`202`		`- {`
`203`		`- if(output_tokens[0]!=bostoadd)`
	`199`	`+ if(output_tokens.size()==0)`
`204`	`200`	`{`
`205`		`- output_tokens.insert(output_tokens.begin(), 1, bostoadd);`
	`201`	`+ output_tokens.push_back(bostoadd);`
	`202`	`+ }`
	`203`	`+ else`
	`204`	`+ {`
	`205`	`+ if(output_tokens[0]!=bostoadd)`
	`206`	`+ {`
	`207`	`+ output_tokens.insert(output_tokens.begin(), 1, bostoadd);`
	`208`	`+ }`
`206`	`209`	`}`
`207`	`210`	`}`
`208`	`211`	`}`
`@@ -1870,6 +1873,12 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in`
`1870`	`1873`	`}`
`1871`	`1874`	`}`
`1872`	`1875`
	`1876`	`+ if(file_format_meta.model_architecture==GGUFArch::ARCH_RWKV)`
	`1877`	`+ {`
	`1878`	`+ printf("\nRWKV6 Overriding EOS and BOS IDs to 0\n");`
	`1879`	`+ llamamodel->vocab.special_bos_id = llamamodel->vocab.special_eos_id = 0;`
	`1880`	`+ }`
	`1881`	`+`
`1873`	`1882`	`llama_ctx_params.flash_attn = kcpp_params->flash_attn;`
`1874`	`1883`	`llama_ctx_params.type_k = (inputs.quant_k>1?GGML_TYPE_Q4_0:(inputs.quant_k==1?GGML_TYPE_Q8_0:GGML_TYPE_F16));`
`1875`	`1884`	`llama_ctx_params.type_v = (inputs.quant_v>1?GGML_TYPE_Q4_0:(inputs.quant_v==1?GGML_TYPE_Q8_0:GGML_TYPE_F16));`
`@@ -3085,7 +3094,10 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`3085`	`3094`	`if (!inputs.allow_eos_token && !inputs.bypass_eos_token)`
`3086`	`3095`	`{`
`3087`	`3096`	`// set the logit of the eos token to very low to avoid sampling it`
`3088`		`- logitsPtr[eosID] = lowestLogit;`
	`3097`	`+ if(eosID!=LLAMA_TOKEN_NULL)`
	`3098`	`+ {`
	`3099`	`+ logitsPtr[eosID] = lowestLogit;`
	`3100`	`+ }`
`3089`	`3101`	`if(eotID!=-1)`
`3090`	`3102`	`{`
`3091`	`3103`	`logitsPtr[eotID] = lowestLogit;`
Original file line number	Diff line number	Diff line change
`@@ -314,6 +314,10 @@ void print_tok_vec(std::vector<float> &embd)`
`314`	`314`	`{`
`315`	`315`	`fileformatmeta->model_architecture = GGUFArch::ARCH_QWEN2;`
`316`	`316`	`}`
	`317`	`+ else if(modelarch=="rwkv6")`
	`318`	`+ {`
	`319`	`+ fileformatmeta->model_architecture = GGUFArch::ARCH_RWKV;`
	`320`	`+ }`
`317`	`321`	`printf("Arch Category: %d\n",fileformatmeta->model_architecture);`
`318`	`322`
`319`	`323`	`}`