[Docs] add request params (PaddlePaddle#5207)

LiqinruiG · liqinrui · web-flow · commit df427ba06dcd · 2025-11-26T15:04:22.000+08:00
* [BugFix] rollback  max_tokens and min_tokens when continue to infer

* [BugFix] rollback  max_tokens and min_tokens when continue to infer

* [fix] add more logger info:  max_tokens

* [Docs] add request params

---------

Co-authored-by: liqinrui &lt;liqinrui@baidu.com&gt;
diff --git a/docs/online_serving/README.md b/docs/online_serving/README.md
@@ -130,6 +130,17 @@ user: Optional[str] = None
 metadata: Optional[dict] = None
 # Additional metadata, used for passing custom information (such as request ID, debug markers, etc.).
 
+n: Optional[int] = 1
+# Number of candidate outputs to generate (i.e., return multiple independent text completions). Default 1 (return only one result).
+
+seed: Optional[int] = Field(default=None, ge=0, le=922337203685477580)
+# Random seed for controlling deterministic generation (same seed + input yields identical results).
+# Must be in range `[0, 922337203685477580]`. Default None means no fixed seed.
+
+stop: Optional[Union[str, List[str]]] = Field(default_factory=list)
+# Stop generation conditions - can be a single string or list of strings.
+# Generation terminates when any stop string is produced (default empty list means disabled).
+
 ```
 
 ### Additional Parameters Added by FastDeploy
@@ -160,6 +171,11 @@ bad_words_token_ids: Optional[List[int]] = None
 
 repetition_penalty: Optional[float] = None
 # Repetition penalty coefficient, reducing the probability of repeating already generated tokens (`>1.0` suppresses repetition, `<1.0` encourages repetition, default None means disabled).
+
+stop_token_ids: Optional[List[int]] = Field(default_factory=list)
+# Stop generation token IDs - list of token IDs that trigger early termination when generated.
+# Typically used alongside `stop` for complementary stopping conditions (default empty list means disabled).
+
 ```
 
 The following extra parameters are supported:
@@ -202,6 +218,19 @@ temp_scaled_logprobs: Optional[bool] = False
 
 top_p_normalized_logprobs: Optional[bool] = False
 # Whether to perform top-p normalization when calculating logprobs (default is False, indicating that top-p normalization is not performed).
+
+include_draft_logprobs: Optional[bool] = False
+# Whether to return log probabilities during draft stages (e.g., pre-generation or intermediate steps)
+# for debugging or analysis of the generation process (default False means not returned).
+
+logits_processors_args: Optional[Dict] = None
+# Additional arguments for logits processors, enabling customization of generation logic
+# (e.g., dynamically adjusting probability distributions).
+
+mm_hashes: Optional[list] = None
+# Hash values for multimodal (e.g., image/audio) inputs, used for verification or tracking.
+# Default None indicates no multimodal input or hash validation required.
+
 ```
 
 ### Differences in Return Fields
@@ -351,6 +380,39 @@ max_tokens: Optional[int] = None
 
 presence_penalty: Optional[float] = None
 # Presence penalty coefficient, reducing the probability of generating new topics (unseen topics) (`>1.0` suppresses new topics, `<1.0` encourages new topics).
+
+echo: Optional[bool] = False
+# Whether to include the input prompt in the generated output (default: `False`, i.e., exclude the prompt).
+
+n: Optional[int] = 1
+# Number of candidate outputs to generate (i.e., return multiple independent text completions). Default 1 (return only one result).
+
+seed: Optional[int] = Field(default=None, ge=0, le=922337203685477580)
+# Random seed for controlling deterministic generation (same seed + input yields identical results).
+# Must be in range `[0, 922337203685477580]`. Default None means no fixed seed.
+
+stop: Optional[Union[str, List[str]]] = Field(default_factory=list)
+# Stop generation conditions - can be a single string or list of strings.
+# Generation terminates when any stop string is produced (default empty list means disabled).
+
+stream: Optional[bool] = False
+# Whether to enable streaming output (return results token by token), default `False` (returns complete results at once).
+
+stream_options: Optional[StreamOptions] = None
+# Additional configurations for streaming output (such as chunk size, timeout, etc.), refer to the specific definition of `StreamOptions`.
+
+temperature: Optional[float] = None
+# Temperature coefficient, controlling generation randomness (`0.0` for deterministic generation, `>1.0` for more randomness, default `None` uses model default).
+
+top_p: Optional[float] = None
+# Nucleus sampling threshold, only retaining tokens whose cumulative probability exceeds `top_p` (default `None` disables).
+
+response_format: Optional[AnyResponseFormat] = None
+# Specifies the output format (such as JSON, XML, etc.), requires passing a predefined format configuration object.
+
+user: Optional[str] = None
+# User identifier, used for tracking or distinguishing requests from different users (default `None` does not pass).
+
 ```
 
 ### Additional Parameters Added by FastDeploy
@@ -379,6 +441,10 @@ bad_words: Optional[List[str]] = None
 bad_words_token_ids: Optional[List[int]] = None
 # List of forbidden token ids that the model should avoid generating (default None means no restriction).
 
+stop_token_ids: Optional[List[int]] = Field(default_factory=list)
+# Stop generation token IDs - list of token IDs that trigger early termination when generated.
+# Typically used alongside `stop` for complementary stopping conditions (default empty list means disabled).
+
 repetition_penalty: Optional[float] = None
 # Repetition penalty coefficient, reducing the probability of repeating already generated tokens (`>1.0` suppresses repetition, `<1.0` encourages repetition, default None means disabled).
 ```
@@ -402,6 +468,25 @@ return_token_ids: Optional[bool] = None
 
 prompt_token_ids: Optional[List[int]] = None
 # Directly passes the token ID list of the prompt, skipping the text encoding step (default None means using text input).
+
+temp_scaled_logprobs: Optional[bool] = False
+# Whether to divide the logits by the temperature coefficient when calculating logprobs (default is False, meaning the logits are not divided by the temperature coefficient).
+
+top_p_normalized_logprobs: Optional[bool] = False
+# Whether to perform top-p normalization when calculating logprobs (default is False, indicating that top-p normalization is not performed).
+
+include_draft_logprobs: Optional[bool] = False
+# Whether to return log probabilities during draft stages (e.g., pre-generation or intermediate steps)
+# for debugging or analysis of the generation process (default False means not returned).
+
+logits_processors_args: Optional[Dict] = None
+# Additional arguments for logits processors, enabling customization of generation logic
+# (e.g., dynamically adjusting probability distributions).
+
+mm_hashes: Optional[list] = None
+# Hash values for multimodal (e.g., image/audio) inputs, used for verification or tracking.
+# Default None indicates no multimodal input or hash validation required.
+
 ```
 
 ### Overview of Return Parameters
diff --git a/docs/zh/online_serving/README.md b/docs/zh/online_serving/README.md
@@ -130,6 +130,15 @@ user: Optional[str] = None
 metadata: Optional[dict] = None
 # 附加元数据，用于传递自定义信息（如请求 ID、调试标记等）。
 
+n: Optional[int] = 1
+# 生成结果的候选数量（即返回多少个独立生成的文本），默认 1（仅返回一个结果）。
+
+seed: Optional[int] = Field(default=None, ge=0, le=922337203685477580)
+# 随机种子，用于控制生成过程的确定性（相同种子和输入会得到相同结果）。范围需在 `[0, 922337203685477580]` 之间，默认 None 表示不固定种子。
+
+stop: Optional[Union[str, List[str]]] = Field(default_factory=list)
+# 停止生成的条件，可以是单个字符串或字符串列表。当模型生成任一停止字符串时，生成过程会提前终止（默认空列表表示不启用）。
+
 ```
 
 ### FastDeploy 增加额外参数
@@ -160,6 +169,10 @@ bad_words_token_ids: Optional[List[int]] = None
 
 repetition_penalty: Optional[float] = None
 # 重复惩罚系数，降低已生成 token 的重复概率（>1.0 抑制重复，<1.0 鼓励重复，默认 None 表示禁用）。
+
+stop_token_ids: Optional[List[int]] = Field(default_factory=list)
+# 停止生成的 token ID 列表，当模型生成任一指定 token 时，生成过程会提前终止（默认空列表表示不启用）。通常与 `stop` 参数互补使用。
+
 ```
 其他参数的支持如下：
 ```python
@@ -201,6 +214,16 @@ temp_scaled_logprobs: Optional[bool] = False
 
 top_p_normalized_logprobs: Optional[bool] = False
 # 计算logprob时是否进行 top_p 归一化（默认 False 表示不进行top_p归一化）。
+
+include_draft_logprobs: Optional[bool] = False
+# 是否在预生成或中间步骤返回对数概率（log probabilities），用于调试或分析生成过程（默认 False 表示不返回）。
+
+logits_processors_args: Optional[Dict] = None
+# 传递给 logits 处理器（logits processors）的额外参数，用于自定义生成过程中的逻辑（如动态调整概率分布）。
+
+mm_hashes: Optional[list] = None
+# 多模态（multimodal）输入的哈希值列表，用于验证或跟踪输入内容（如图像、音频等）。默认 None 表示无多模态输入或无需哈希验证。
+
 ```
 
 ### 返回字段差异
@@ -350,6 +373,37 @@ max_tokens: Optional[int] = None
 
 presence_penalty: Optional[float] = None
 # 存在惩罚系数，降低新主题（未出现过的话题）的生成概率（`>1.0` 抑制新话题，`<1.0` 鼓励新话题）。
+
+echo: Optional[bool] = False
+# 是否将输入的 prompt 包含在输出中（默认 False，即不输出 prompt）。
+
+n: Optional[int] = 1
+# 生成结果的候选数量（即返回多少个独立生成的文本），默认 1（仅返回一个结果）。
+
+seed: Optional[int] = Field(default=None, ge=0, le=922337203685477580)
+# 随机种子，用于控制生成过程的确定性（相同种子和输入会得到相同结果）。范围需在 `[0, 922337203685477580]` 之间，默认 None 表示不固定种子。
+
+stop: Optional[Union[str, List[str]]] = Field(default_factory=list)
+# 停止生成的条件，可以是单个字符串或字符串列表。当模型生成任一停止字符串时，生成过程会提前终止（默认空列表表示不启用）。
+
+stream: Optional[bool] = False
+# 是否启用流式输出（逐 token 返回结果），默认 `False`（一次性返回完整结果）。
+
+stream_options: Optional[StreamOptions] = None
+# 流式输出的额外配置（如分块大小、超时等），需参考 `StreamOptions` 的具体定义。
+
+temperature: Optional[float] = None
+# 温度系数，控制生成随机性（`0.0` 确定性生成，`>1.0` 更随机，默认 `None` 使用模型默认值）。
+
+top_p: Optional[float] = None
+# 核采样（nucleus sampling）阈值，只保留概率累计超过 `top_p` 的 token（默认 `None` 禁用）。
+
+response_format: Optional[AnyResponseFormat] = None
+# 指定输出格式（如 JSON、XML 等），需传入预定义的格式配置对象。
+
+user: Optional[str] = None
+# 用户标识符，用于跟踪或区分不同用户的请求（默认 `None` 不传递）。
+
 ```
 
 ### FastDeploy 增加额外参数
@@ -375,6 +429,12 @@ include_stop_str_in_output: Optional[bool] = False
 bad_words: Optional[List[str]] = None
 # 禁止生成的词汇列表（例如敏感词），模型会避免输出这些词（默认 None 表示不限制）。
 
+bad_words_token_ids: Optional[List[int]] = None
+# 禁止生成的token id列表，模型会避免输出这些词（默认 None 表示不限制）。
+
+stop_token_ids: Optional[List[int]] = Field(default_factory=list)
+# 停止生成的 token ID 列表，当模型生成任一指定 token 时，生成过程会提前终止（默认空列表表示不启用）。通常与 `stop` 参数互补使用。
+
 repetition_penalty: Optional[float] = None
 # 重复惩罚系数，降低已生成 token 的重复概率（>1.0 抑制重复，<1.0 鼓励重复，默认 None 表示禁用）。
 ```
@@ -398,6 +458,20 @@ return_token_ids: Optional[bool] = None
 prompt_token_ids: Optional[List[int]] = None
 # 直接传入 prompt 的 token ID 列表，跳过文本编码步骤（默认 None 表示使用文本输入）。
 
+temp_scaled_logprobs: Optional[bool] = False
+# 计算logprob时是否对logits除以温度系数（默认 False 表示不除以温度系数）。
+
+top_p_normalized_logprobs: Optional[bool] = False
+# 计算logprob时是否进行 top_p 归一化（默认 False 表示不进行top_p归一化）。
+
+include_draft_logprobs: Optional[bool] = False
+# 是否在预生成或中间步骤返回对数概率（log probabilities），用于调试或分析生成过程（默认 False 表示不返回）。
+
+logits_processors_args: Optional[Dict] = None
+# 传递给 logits 处理器（logits processors）的额外参数，用于自定义生成过程中的逻辑（如动态调整概率分布）。
+
+mm_hashes: Optional[list] = None
+# 多模态（multimodal）输入的哈希值列表，用于验证或跟踪输入内容（如图像、音频等）。默认 None 表示无多模态输入或无需哈希验证。
 ```
 
 ### 返回参数总览