review: rename rollback to rs_seq and remove public API

am17an · am17an · commit c5e02271c10b · 2026-05-04T20:15:41.000+08:00
diff --git a/common/common.cpp b/common/common.cpp
@@ -1420,11 +1420,7 @@ common_context_seq_rm_type common_context_can_seq_rm(llama_context * ctx) {
         goto done;
     }
 
-    // bounded-rollback architectures: classify before the seq_rm probe, since
-    // the probe (distance = 1) would silently take the rollback path and look
-    // like unbounded PART support
-    if (llama_n_rollback_max(ctx) > 0 &&
-        llama_model_supports_recurrent_partial_rollback(llama_get_model(ctx))) {
+    if (llama_n_rs_seq(ctx) > 0) {
         res = COMMON_CONTEXT_SEQ_RM_TYPE_PART_BOUNDED;
         goto done;
     }
@@ -1503,7 +1499,7 @@ struct llama_context_params common_context_params_to_llama(const common_params &
         // TODO: add for MTP
         const bool has_spec = (params.speculative.type != COMMON_SPECULATIVE_TYPE_NONE)
                               || params.speculative.has_dft();
-        cparams.n_rollback_max = has_spec ? (uint32_t) params.speculative.draft.n_max : 0u;
+        cparams.n_rs_seq = has_spec ? (uint32_t) params.speculative.draft.n_max : 0u;
     }
     cparams.n_batch           = params.n_batch;
     cparams.n_ubatch          = params.n_ubatch;
diff --git a/common/common.h b/common/common.h
@@ -882,7 +882,7 @@ enum common_context_seq_rm_type {
     COMMON_CONTEXT_SEQ_RM_TYPE_NO           = 0, // seq_rm not supported (e.g. no memory module)
     COMMON_CONTEXT_SEQ_RM_TYPE_PART         = 1, // can seq_rm partial sequences
     COMMON_CONTEXT_SEQ_RM_TYPE_FULL         = 2, // can seq_rm full sequences only
-    COMMON_CONTEXT_SEQ_RM_TYPE_PART_BOUNDED = 3, // can seq_rm partial sequences, bounded by n_rollback_max
+    COMMON_CONTEXT_SEQ_RM_TYPE_PART_BOUNDED = 3, // can seq_rm partial sequences, bounded by n_rs_seq
 };
 
 // check if the llama_context can remove sequences
diff --git a/include/llama.h b/include/llama.h
@@ -333,7 +333,7 @@ extern "C" {
         uint32_t n_batch;           // logical maximum batch size that can be submitted to llama_decode
         uint32_t n_ubatch;          // physical maximum batch size
         uint32_t n_seq_max;         // max number of sequences (i.e. distinct states for recurrent models)
-        uint32_t n_rollback_max;    // max recurrent-state rollback distance (0 = no rollback support)
+        uint32_t n_rs_seq;          // number of recurrent-state snapshots per seq for rollback (0 = no rollback)
         int32_t  n_threads;         // number of threads to use for generation
         int32_t  n_threads_batch;   // number of threads to use for batch processing
 
@@ -531,7 +531,7 @@ extern "C" {
     LLAMA_API uint32_t llama_n_batch    (const struct llama_context * ctx);
     LLAMA_API uint32_t llama_n_ubatch   (const struct llama_context * ctx);
     LLAMA_API uint32_t llama_n_seq_max  (const struct llama_context * ctx);
-    LLAMA_API uint32_t llama_n_rollback_max (const struct llama_context * ctx);
+    LLAMA_API uint32_t llama_n_rs_seq       (const struct llama_context * ctx);
 
     DEPRECATED(LLAMA_API int32_t llama_n_ctx_train(const struct llama_model * model), "use llama_model_n_ctx_train instead");
     DEPRECATED(LLAMA_API int32_t llama_n_embd     (const struct llama_model * model), "use llama_model_n_embd instead");
@@ -623,8 +623,6 @@ extern "C" {
     // Returns true if the model is diffusion-based (like LLaDA, Dream, etc.)
     LLAMA_API bool llama_model_is_diffusion(const struct llama_model * model);
 
-    LLAMA_API bool llama_model_supports_recurrent_partial_rollback(const struct llama_model * model);
-
     // Returns 0 on success
     LLAMA_API uint32_t llama_model_quantize(
             const char * fname_inp,
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -42,11 +42,11 @@ llama_context::llama_context(
         throw std::runtime_error("n_seq_max must be <= " + std::to_string(LLAMA_MAX_SEQ));
     }
 
-    cparams.n_rollback_max = params.n_rollback_max;
-    if (cparams.n_rollback_max > 0 && !llm_arch_supports_recurrent_partial_rollback(model.arch)) {
-        LLAMA_LOG_WARN("%s: n_rollback_max=%u requested but model arch does not support recurrent partial rollback; clamping to 0\n",
-                       __func__, cparams.n_rollback_max);
-        cparams.n_rollback_max = 0;
+    cparams.n_rs_seq = params.n_rs_seq;
+    if (cparams.n_rs_seq > 0 && !llm_arch_supports_recurrent_partial_rollback(model.arch)) {
+        LLAMA_LOG_DEBUG("%s: n_rs_seq=%u requested but model arch does not support recurrent partial rollback; clamping to 0\n",
+                        __func__, cparams.n_rs_seq);
+        cparams.n_rs_seq = 0;
     }
 
     cparams.n_threads        = params.n_threads;
@@ -2953,7 +2953,7 @@ llama_context_params llama_context_default_params() {
         /*.n_batch                     =*/ 2048,
         /*.n_ubatch                    =*/ 512,
         /*.n_seq_max                   =*/ 1,
-        /*.n_rollback_max              =*/ 0,
+        /*.n_rs_seq                    =*/ 0,
         /*.n_threads                   =*/ GGML_DEFAULT_N_THREADS, // TODO: better default
         /*.n_threads_batch             =*/ GGML_DEFAULT_N_THREADS,
         /*.rope_scaling_type           =*/ LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED,
@@ -3100,8 +3100,8 @@ uint32_t llama_n_seq_max(const llama_context * ctx) {
     return ctx->n_seq_max();
 }
 
-uint32_t llama_n_rollback_max(const llama_context * ctx) {
-    return ctx->get_cparams().n_rollback_max;
+uint32_t llama_n_rs_seq(const llama_context * ctx) {
+    return ctx->get_cparams().n_rs_seq;
 }
 
 const llama_model * llama_get_model(const llama_context * ctx) {
diff --git a/src/llama-cparams.h b/src/llama-cparams.h
@@ -12,7 +12,7 @@ struct llama_cparams {
     uint32_t n_batch;
     uint32_t n_ubatch;
     uint32_t n_seq_max;
-    uint32_t n_rollback_max;  // max recurrent-state rollback distance
+    uint32_t n_rs_seq;        // number of recurrent-state snapshots per seq for rollback
     int32_t  n_threads;       // number of threads to use for generation
     int32_t  n_threads_batch; // number of threads to use for batch processing
 
diff --git a/src/llama-memory-hybrid-iswa.cpp b/src/llama-memory-hybrid-iswa.cpp
@@ -24,7 +24,7 @@ llama_memory_hybrid_iswa::llama_memory_hybrid_iswa(
                  uint32_t   rs_size,
                             /* common */
                  uint32_t   n_seq_max,
-                 uint32_t   n_rollback_max,
+                 uint32_t   n_rs_seq,
                      bool   offload,
                      bool   unified,
                             /* layer filters */
@@ -55,7 +55,7 @@ llama_memory_hybrid_iswa::llama_memory_hybrid_iswa(
         offload,
         rs_size,
         n_seq_max,
-        n_rollback_max,
+        n_rs_seq,
         filter_recr == nullptr ?
             [&](int32_t il) { return hparams.is_recurrent(il); }
             : filter_recr
diff --git a/src/llama-memory-hybrid-iswa.h b/src/llama-memory-hybrid-iswa.h
@@ -34,7 +34,7 @@ class llama_memory_hybrid_iswa : public llama_memory_i {
                  uint32_t   rs_size,
                             /* common */
                  uint32_t   n_seq_max,
-                 uint32_t   n_rollback_max,
+                 uint32_t   n_rs_seq,
                      bool   offload,
                      bool   unified,
                             /* layer filters */
diff --git a/src/llama-memory-hybrid.cpp b/src/llama-memory-hybrid.cpp
@@ -24,7 +24,7 @@ llama_memory_hybrid::llama_memory_hybrid(
                  uint32_t   rs_size,
                             /* common */
                  uint32_t   n_seq_max,
-                 uint32_t   n_rollback_max,
+                 uint32_t   n_rs_seq,
                      bool   offload,
                      bool   unified,
                             /* layer filters */
@@ -55,7 +55,7 @@ llama_memory_hybrid::llama_memory_hybrid(
         offload,
         rs_size,
         n_seq_max,
-        n_rollback_max,
+        n_rs_seq,
         filter_recr == nullptr ?
             [&](int32_t il) { return hparams.is_recurrent(il); }
             : filter_recr
diff --git a/src/llama-memory-hybrid.h b/src/llama-memory-hybrid.h
@@ -34,7 +34,7 @@ class llama_memory_hybrid : public llama_memory_i {
                  uint32_t   rs_size,
                             /* common */
                  uint32_t   n_seq_max,
-                 uint32_t   n_rollback_max,
+                 uint32_t   n_rs_seq,
                      bool   offload,
                      bool   unified,
                             /* layer filters */
diff --git a/src/llama-memory-recurrent.cpp b/src/llama-memory-recurrent.cpp
@@ -24,16 +24,16 @@ llama_memory_recurrent::llama_memory_recurrent(
                      bool   offload,
                  uint32_t   mem_size,
                  uint32_t   n_seq_max,
-                 uint32_t   n_rollback_max,
+                 uint32_t   n_rs_seq,
     const layer_filter_cb & filter) : hparams(model.hparams), n_seq_max(n_seq_max) {
     const int32_t n_layer = hparams.n_layer;
 
     head = 0;
     size = mem_size;
     used = 0;
 
-    this->n_rollback_max = n_rollback_max;
-    recurrent_rollback_idx.assign(n_seq_max, 0);
+    this->n_rs_seq = n_rs_seq;
+    rs_idx.assign(n_seq_max, 0);
 
     cells.clear();
     cells.resize(mem_size);
@@ -96,7 +96,7 @@ llama_memory_recurrent::llama_memory_recurrent(
             throw std::runtime_error("failed to create ggml context for rs cache");
         }
 
-        const uint32_t n_rows = mem_size * (1 + n_rollback_max);
+        const uint32_t n_rows = mem_size * (1 + n_rs_seq);
         ggml_tensor * r = ggml_new_tensor_2d(ctx, type_r, hparams.n_embd_r(), n_rows);
         ggml_tensor * s = ggml_new_tensor_2d(ctx, type_s, hparams.n_embd_s(), n_rows);
         ggml_format_name(r, "cache_r_l%d", i);
@@ -167,11 +167,11 @@ bool llama_memory_recurrent::seq_rm(llama_seq_id seq_id, llama_pos p0, llama_pos
         if (tail_id >= 0) {
             auto & cell = cells[tail_id];
 
-            // partial rollback via per-token snapshot index (bounded by n_rollback_max)
+            // partial rollback via per-token snapshot index (bounded by n_rs_seq)
             if (0 < p0 && p0 <= cell.pos && p1 > cell.pos) {
                 const llama_pos rollback = cell.pos - (p0 - 1);
-                if (rollback >= 1 && rollback <= (llama_pos) n_rollback_max) {
-                    set_recurrent_rollback_idx(seq_id, (uint32_t) rollback);
+                if (rollback >= 1 && rollback <= (llama_pos) n_rs_seq) {
+                    set_rs_idx(seq_id, (uint32_t) rollback);
                     cell.pos = p0 - 1;
                     return true;
                 }
@@ -378,18 +378,11 @@ llama_pos llama_memory_recurrent::seq_pos_max(llama_seq_id seq_id) const {
     return result;
 }
 
-void llama_memory_recurrent::set_recurrent_rollback_idx(llama_seq_id seq_id, uint32_t idx) {
-    if (seq_id < 0 || (size_t) seq_id >= recurrent_rollback_idx.size()) {
+void llama_memory_recurrent::set_rs_idx(llama_seq_id seq_id, uint32_t idx) {
+    if (seq_id < 0 || (size_t) seq_id >= rs_idx.size()) {
         return;
     }
-    recurrent_rollback_idx[seq_id] = (idx > n_rollback_max) ? n_rollback_max : idx;
-}
-
-uint32_t llama_memory_recurrent::get_recurrent_rollback_idx(llama_seq_id seq_id) const {
-    if (seq_id < 0 || (size_t) seq_id >= recurrent_rollback_idx.size()) {
-        return 0;
-    }
-    return recurrent_rollback_idx[seq_id];
+    rs_idx[seq_id] = (idx > n_rs_seq) ? n_rs_seq : idx;
 }
 
 std::map<ggml_backend_buffer_type_t, size_t> llama_memory_recurrent::memory_breakdown() const {
@@ -1186,17 +1179,17 @@ int32_t llama_memory_recurrent_context::s_copy(int i) const {
     const uint32_t cell_idx = i + mem->head;
     const int32_t  src0     = mem->cells[cell_idx].src0;
 
-    if (mem->n_rollback_max == 0) {
+    if (mem->n_rs_seq == 0) {
         return src0;
     }
 
     uint32_t idx = 0;
     if (!mem->cells[cell_idx].seq_id.empty()) {
         const llama_seq_id seq = *mem->cells[cell_idx].seq_id.begin();
-        if (seq >= 0 && (size_t) seq < mem->recurrent_rollback_idx.size()) {
-            idx = mem->recurrent_rollback_idx[seq];
+        if (seq >= 0 && (size_t) seq < mem->rs_idx.size()) {
+            idx = mem->rs_idx[seq];
             // reset rollback idx
-            mem->recurrent_rollback_idx[seq] = 0;
+            mem->rs_idx[seq] = 0;
         }
     }
     return (int32_t)(idx * mem->size) + src0;
diff --git a/src/llama-memory-recurrent.h b/src/llama-memory-recurrent.h
@@ -23,7 +23,7 @@ class llama_memory_recurrent : public llama_memory_i {
                          bool   offload,
                      uint32_t   mem_size,
                      uint32_t   n_seq_max,
-                     uint32_t   n_rollback_max,
+                     uint32_t   n_rs_seq,
         const layer_filter_cb & filter);
 
     ~llama_memory_recurrent() = default;
@@ -70,13 +70,12 @@ class llama_memory_recurrent : public llama_memory_i {
     uint32_t size = 0; // total number of cells, shared across all sequences
     uint32_t used = 0; // used cells (i.e. at least one seq_id)
 
-    // max recurrent-state rollback distance; tensors are widened to (1 + n_rollback_max) groups
-    uint32_t n_rollback_max = 0;
+    // number of recurrent-state snapshots per seq for rollback; tensors are widened to (1 + n_rs_seq) groups
+    uint32_t n_rs_seq = 0;
     // per-seq rollback index
-    std::vector<uint32_t> recurrent_rollback_idx;
+    std::vector<uint32_t> rs_idx;
 
-    void     set_recurrent_rollback_idx(llama_seq_id seq_id, uint32_t idx);
-    uint32_t get_recurrent_rollback_idx(llama_seq_id seq_id) const;
+    void set_rs_idx(llama_seq_id seq_id, uint32_t idx);
 
     // computed before each graph build
     uint32_t n = 0;
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1945,7 +1945,7 @@ llama_memory_i * llama_model::create_memory(const llama_memory_params & params,
                             cparams.offload_kqv,
                             std::max((uint32_t) 1, cparams.n_seq_max),
                             cparams.n_seq_max,
-                            cparams.n_rollback_max,
+                            cparams.n_rs_seq,
                             nullptr);
                 } else if (llm_arch_is_hybrid(arch)) {
                     // The main difference between hybrid architectures is the
@@ -1979,7 +1979,7 @@ llama_memory_i * llama_model::create_memory(const llama_memory_params & params,
                             /* recurrent_type_s  */ GGML_TYPE_F32,
                             /* recurrent_rs_size */ std::max((uint32_t) 1, cparams.n_seq_max),
                             /* n_seq_max         */ cparams.n_seq_max,
-                            /* n_rollback_max    */ cparams.n_rollback_max,
+                            /* n_rs_seq          */ cparams.n_rs_seq,
                             /* offload           */ cparams.offload_kqv,
                             /* unified           */ cparams.kv_unified,
                             /* filter_attn       */ std::move(filter_attn),
@@ -1998,7 +1998,7 @@ llama_memory_i * llama_model::create_memory(const llama_memory_params & params,
                             /* recurrent_type_v  */ GGML_TYPE_F32,
                             /* recurrent_kv_size */ std::max((uint32_t) 1, cparams.n_seq_max),
                             /* n_seq_max         */ cparams.n_seq_max,
-                            /* n_rollback_max    */ cparams.n_rollback_max,
+                            /* n_rs_seq          */ cparams.n_rs_seq,
                             /* offload           */ cparams.offload_kqv,
                             /* unified           */ cparams.kv_unified,
                             /* filter_attn       */ std::move(filter_attn),
@@ -2460,10 +2460,6 @@ bool llama_model_is_diffusion(const llama_model * model) {
     return llm_arch_is_diffusion(model->arch);
 }
 
-bool llama_model_supports_recurrent_partial_rollback(const llama_model * model) {
-    return llm_arch_supports_recurrent_partial_rollback(model->arch);
-}
-
 const std::vector<std::pair<std::string, ggml_tensor *>> & llama_internal_get_tensor_map(const llama_model * model) {
     return model->tensors_by_name;
 }
diff --git a/src/models/qwen35.cpp b/src/models/qwen35.cpp
@@ -304,9 +304,9 @@ ggml_tensor * llama_model_qwen35::graph::build_layer_attn_linear(
     GGML_ASSERT(ubatch.n_tokens == n_seq_tokens * n_seqs);
 
     const uint32_t mem_size  = mctx_cur->get_size();
-    const bool keep_intermediates   = (cparams.n_rollback_max > 0)
+    const bool keep_intermediates   = (cparams.n_rs_seq > 0)
                             && (n_seq_tokens > 1)
-                            && ((uint32_t) n_seq_tokens <= 1 + cparams.n_rollback_max);
+                            && ((uint32_t) n_seq_tokens <= 1 + cparams.n_rs_seq);
 
     // Input projections
     auto qkvz = build_qkvz(cur, il);
diff --git a/src/models/qwen35moe.cpp b/src/models/qwen35moe.cpp
@@ -317,9 +317,9 @@ ggml_tensor * llama_model_qwen35moe::graph::build_layer_attn_linear(
     GGML_ASSERT(ubatch.n_tokens == n_seq_tokens * n_seqs);
 
     const uint32_t mem_size  = mctx_cur->get_size();
-    const bool keep_intermediates   = (cparams.n_rollback_max > 0)
+    const bool keep_intermediates   = (cparams.n_rs_seq > 0)
                             && (n_seq_tokens > 1)
-                            && ((uint32_t) n_seq_tokens <= 1 + cparams.n_rollback_max);
+                            && ((uint32_t) n_seq_tokens <= 1 + cparams.n_rs_seq);
 
     // Input projections
     auto qkvz = build_qkvz(cur, il);
diff --git a/tools/server/server-context.cpp b/tools/server/server-context.cpp
@@ -802,7 +802,7 @@ struct server_context_impl {
 
             params_base.speculative.draft.model = model_dft.get();
             params_base.speculative.draft.cparams = common_context_params_to_llama(params_dft);
-            params_base.speculative.draft.cparams.n_rollback_max = 0;
+            params_base.speculative.draft.cparams.n_rs_seq = 0;
         }
 
         std::string & mmproj_path = params_base.mmproj.path;