feat(ltm): make user segment truncation limits configurable

RC-CHN · RC-CHN · commit 4da06f3a52d1 · 2026-05-18T16:57:17.000+08:00
diff --git a/astrbot/builtin_stars/astrbot/long_term_memory.py b/astrbot/builtin_stars/astrbot/long_term_memory.py
@@ -109,6 +109,14 @@ def cfg(self, event: AstrMessageEvent):
         )
         ltm_summary_provider_id = ltm_cfg.get("ltm_summary_provider_id", "")
         ltm_summary_prompt = ltm_cfg.get("ltm_summary_prompt", "")
+        ltm_max_msgs_per_user_segment = int(
+            ltm_cfg.get("ltm_max_msgs_per_user_segment", MAX_MSGS_PER_USER_SEGMENT)
+            or MAX_MSGS_PER_USER_SEGMENT
+        )
+        ltm_max_chars_per_user_segment = int(
+            ltm_cfg.get("ltm_max_chars_per_user_segment", MAX_CHARS_PER_USER_SEGMENT)
+            or MAX_CHARS_PER_USER_SEGMENT
+        )
         return {
             "image_caption": image_caption,
             "image_caption_prompt": image_caption_prompt,
@@ -130,6 +138,8 @@ def cfg(self, event: AstrMessageEvent):
             "ltm_raw_records_max_bytes": ltm_cfg.get(
                 "ltm_raw_records_max_bytes", MAX_RAW_BYTES
             ),
+            "ltm_max_msgs_per_user_segment": max(1, ltm_max_msgs_per_user_segment),
+            "ltm_max_chars_per_user_segment": max(1, ltm_max_chars_per_user_segment),
         }
 
     # =========================================================================
@@ -266,12 +276,18 @@ async def on_req_llm(self, event: AstrMessageEvent, req: ProviderRequest) -> Non
             if umo not in self.raw_records:
                 return
 
+            cfg = self.cfg(event)
+
             raw_list = list(self.raw_records[umo])
             cursor = self._raw_cursor[umo]
             new_raw = raw_list[cursor:prompt_idx] if prompt_idx > cursor else []
 
             if new_raw:
-                new_segs = _build_segments(new_raw)
+                new_segs = _build_segments(
+                    new_raw,
+                    max_msgs=cfg["ltm_max_msgs_per_user_segment"],
+                    max_chars=cfg["ltm_max_chars_per_user_segment"],
+                )
                 self.contexts[umo].extend(new_segs)
                 self._raw_cursor[umo] = prompt_idx
 
@@ -380,7 +396,11 @@ async def on_agent_done(
             cursor = self._raw_cursor[umo]
             remaining = raw_list[cursor:]
             if remaining:
-                new_segs = _build_segments(remaining)
+                new_segs = _build_segments(
+                    remaining,
+                    max_msgs=cfg["ltm_max_msgs_per_user_segment"],
+                    max_chars=cfg["ltm_max_chars_per_user_segment"],
+                )
                 self.contexts[umo].extend(new_segs)
                 self._raw_cursor[umo] = len(raw_list)
 
@@ -572,14 +592,18 @@ def _trim_raw_records(self, umo: str, max_bytes: int = MAX_RAW_BYTES) -> None:
 # =============================================================================
 
 
-def _build_segments(raw_lines: list[str]) -> list[dict]:
+def _build_segments(
+    raw_lines: list[str],
+    max_msgs: int = MAX_MSGS_PER_USER_SEGMENT,
+    max_chars: int = MAX_CHARS_PER_USER_SEGMENT,
+) -> list[dict]:
     """从 raw strings 构建 OpenAI 格式 contexts 段。
 
     规则：
     1. <T:CALL>json</T:CALL> → 连续多条合并为一个 assistant(tool_calls)
     2. <T:RES id=xxx>content</T:RES> → tool 消息，tool_call_id 配对
     3. <BOT/时间>: content → assistant（纯文本）
-    4. 其它行 → user（合并为段，段内裁剪 MAX_MSGS/MAX_CHARS）
+    4. 其它行 → user（合并为段，段内裁剪 max_msgs/max_chars）
     """
     if not raw_lines:
         return []
@@ -591,7 +615,7 @@ def _build_segments(raw_lines: list[str]) -> list[dict]:
     def flush_user():
         if not user_buf:
             return
-        truncated = _truncate_user_segment(user_buf)
+        truncated = _truncate_user_segment(user_buf, max_msgs, max_chars)
         segments.append({"role": "user", "content": "\n".join(truncated)})
         user_buf.clear()
 
@@ -711,14 +735,23 @@ def _extract_tag_content(line: str, start_tag: str, end_tag: str) -> str | None:
     return line[len(start_tag) : -len(end_tag)].strip()
 
 
-def _truncate_user_segment(lines: list[str]) -> list[str]:
-    """段内裁剪：保留最近 N 条，不超字符上限。从段内最早的消息开始丢弃。"""
+def _truncate_user_segment(
+    lines: list[str],
+    max_msgs: int = MAX_MSGS_PER_USER_SEGMENT,
+    max_chars: int = MAX_CHARS_PER_USER_SEGMENT,
+) -> list[str]:
+    """段内裁剪：保留最近 N 条，不超字符上限。从段内最早的消息开始丢弃。
+
+    Both limits are active simultaneously — whichever cap is hit first
+    (by count or by chars) stops accumulation. At least one message is
+    always retained even if it alone exceeds max_chars.
+    """
     result: list[str] = []
     total = 0
     for line in reversed(lines):
-        if len(result) >= MAX_MSGS_PER_USER_SEGMENT:
+        if len(result) >= max_msgs:
             break
-        if total + len(line) > MAX_CHARS_PER_USER_SEGMENT and result:
+        if total + len(line) > max_chars and result:
             break
         result.append(line)
         total += len(line) + 1  # +1 for \n
diff --git a/astrbot/core/config/default.py b/astrbot/core/config/default.py
@@ -229,6 +229,12 @@
         "ltm_summary_provider_id": "",
         "ltm_summary_prompt": "",
         "ltm_raw_records_max_bytes": 500000,
+        # When building user segments, both limits are active simultaneously:
+        # whichever cap is hit first (by count or by chars) stops accumulation.
+        # At least one message is always retained even if it alone exceeds the
+        # character limit.
+        "ltm_max_msgs_per_user_segment": 50,
+        "ltm_max_chars_per_user_segment": 3000,
         "active_reply": {
             "enable": False,
             "method": "possibility_reply",
@@ -4199,6 +4205,16 @@
                         "type": "int",
                         "hint": "每个群聊允许 raw_records 占用的最大字节数，默认 500000 (500KB)。",
                     },
+                    "provider_ltm_settings.ltm_max_msgs_per_user_segment": {
+                        "description": "用户段最大消息数",
+                        "type": "int",
+                        "hint": "两次 @bot 之间积累的群聊消息合并为一个 user segment 时，最多保留多少条，默认 50。与字符上限同时生效，先到先停，至少保留一条。",
+                    },
+                    "provider_ltm_settings.ltm_max_chars_per_user_segment": {
+                        "description": "用户段最大字符数",
+                        "type": "int",
+                        "hint": "两次 @bot 之间积累的群聊消息合并为一个 user segment 时，最多保留多少字符，默认 3000。与条数上限同时生效，先到先停，至少保留一条。",
+                    },
                     "provider_ltm_settings.active_reply.enable": {
                         "description": "主动回复",
                         "type": "bool",
diff --git a/dashboard/src/i18n/locales/en-US/features/config-metadata.json b/dashboard/src/i18n/locales/en-US/features/config-metadata.json
@@ -1033,6 +1033,14 @@
           "description": "Raw Message Buffer Memory Limit",
           "hint": "Maximum bytes for the unprocessed message buffer per group. Prevents memory overflow in groups where the bot hasn't been @-mentioned for a long time. Default 500000 (500KB)."
         },
+        "ltm_max_msgs_per_user_segment": {
+          "description": "User segment max messages",
+          "hint": "Maximum number of group messages between two @-mentions to retain when merging into one user segment. Default 50. Works simultaneously with the character cap — first limit hit stops accumulation. At least one message is always kept."
+        },
+        "ltm_max_chars_per_user_segment": {
+          "description": "User segment max characters",
+          "hint": "Maximum characters of group messages between two @-mentions to retain when merging into one user segment. Default 3000. Works simultaneously with the message cap — first limit hit stops accumulation. At least one message is always kept."
+        },
         "active_reply": {
           "enable": {
             "description": "Active Reply"
diff --git a/dashboard/src/i18n/locales/ru-RU/features/config-metadata.json b/dashboard/src/i18n/locales/ru-RU/features/config-metadata.json
@@ -1034,6 +1034,14 @@
                     "description": "Лимит буфера сообщений",
                     "hint": "Максимальный размер необработанного буфера сообщений на группу. Предотвращает переполнение памяти в группах, где бот долго не упоминался. По умолчанию 500000 (500KB)."
                 },
+                "ltm_max_msgs_per_user_segment": {
+                    "description": "Макс. сообщений в сегменте",
+                    "hint": "Максимальное количество сообщений группы между двумя @-упоминаниями, сохраняемых в одном пользовательском сегменте. По умолчанию 50. Действует одновременно с лимитом символов — срабатывает первый достигнутый. Минимум одно сообщение сохраняется всегда."
+                },
+                "ltm_max_chars_per_user_segment": {
+                    "description": "Макс. символов в сегменте",
+                    "hint": "Максимальное количество символов сообщений группы между двумя @-упоминаниями, сохраняемых в одном пользовательском сегменте. По умолчанию 3000. Действует одновременно с лимитом сообщений — срабатывает первый достигнутый. Минимум одно сообщение сохраняется всегда."
+                },
                 "active_reply": {
                     "enable": {
                         "description": "Активный ответ"
diff --git a/dashboard/src/i18n/locales/zh-CN/features/config-metadata.json b/dashboard/src/i18n/locales/zh-CN/features/config-metadata.json
@@ -1035,6 +1035,14 @@
           "description": "原始消息缓冲区内存上限",
           "hint": "每个群聊的未消费消息缓冲区的最大字节数。用于防止长期未 @bot 的群内存溢出，默认 500000 (500KB)。"
         },
+        "ltm_max_msgs_per_user_segment": {
+          "description": "用户段最大消息数",
+          "hint": "两次 @bot 之间积累的群聊消息合并为一个 user segment 时，最多保留多少条，默认 50。与字符上限同时生效，先到先停，至少保留一条。"
+        },
+        "ltm_max_chars_per_user_segment": {
+          "description": "用户段最大字符数",
+          "hint": "两次 @bot 之间积累的群聊消息合并为一个 user segment 时，最多保留多少字符，默认 3000。与条数上限同时生效，先到先停，至少保留一条。"
+        },
         "active_reply": {
           "enable": {
             "description": "主动回复"