Skip to content

[CI] DEBUG validate installation of paddleformers[paddlefleet]==1.1.0.dev20260507#7916

Open
xiaoguoguo626807 wants to merge 5 commits into
PaddlePaddle:developfrom
xiaoguoguo626807:updatefleet
Open

[CI] DEBUG validate installation of paddleformers[paddlefleet]==1.1.0.dev20260507#7916
xiaoguoguo626807 wants to merge 5 commits into
PaddlePaddle:developfrom
xiaoguoguo626807:updatefleet

Conversation

@xiaoguoguo626807
Copy link
Copy Markdown

@xiaoguoguo626807 xiaoguoguo626807 commented May 25, 2026

Motivation

Validate the installation behavior and compatibility of paddleformers[paddlefleet]==1.1.0.dev20260507 in the current CI environment for debugging and verification purposes.

Modifications

Added temporary CI changes to verify installation of:
paddleformers[paddlefleet]==1.1.0.dev20260507
Used for debugging package installation and dependency compatibility issues.

Usage or Command

N/A

Accuracy Tests

N/A

Checklist

  • Add at least a tag in the PR title.
    • Tag list: [[FDConfig],[APIServer],[Engine], [Scheduler], [PD Disaggregation], [Executor], [Graph Optimization], [Speculative Decoding], [RL], [Models], [Quantization], [Loader], [OP], [KVCache], [DataProcessor], [BugFix], [Docs], [CI], [Optimization], [Feature], [Benchmark], [Others], [XPU], [HPU], [GCU], [DCU], [Iluvatar], [Metax]]
    • You can add new tags based on the PR content, but the semantics must be clear.
  • Format your code, run pre-commit before commit.
  • Add unit tests. Please write the reason in this PR if no unit tests.
  • Provide accuracy results.
  • If the current PR is submitting to the release branch, make sure the PR has been submitted to the develop branch, then cherry-pick it to the release branch with the [Cherry-Pick] PR tag.

@paddle-bot
Copy link
Copy Markdown

paddle-bot Bot commented May 25, 2026

Thanks for your contribution!

PaddlePaddle-bot

This comment was marked as outdated.

@codecov-commenter
Copy link
Copy Markdown

codecov-commenter commented May 25, 2026

Codecov Report

✅ All modified and coverable lines are covered by tests.
⚠️ Please upload report for BASE (develop@8a4ac65). Learn more about missing BASE report.

Additional details and impacted files
@@            Coverage Diff             @@
##             develop    #7916   +/-   ##
==========================================
  Coverage           ?   72.74%           
==========================================
  Files              ?      404           
  Lines              ?    56833           
  Branches           ?     8890           
==========================================
  Hits               ?    41344           
  Misses             ?    12684           
  Partials           ?     2805           
Flag Coverage Δ
GPU 72.74% <ø> (?)

Flags with carried forward coverage won't be shown. Click here to find out more.

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

🚀 New features to boost your workflow:
  • ❄️ Test Analytics: Detect flaky tests, report on failures, and find test suite problems.

@PaddlePaddle-bot
Copy link
Copy Markdown

PaddlePaddle-bot commented May 25, 2026

🤖 Paddle-CI-Agent | ci_status_monitor | 2026-05-26 18:38:05

CI报告基于以下代码生成(30分钟更新一次):


1 任务总览

当前 Required 任务 5/10 通过,仍有 5 个 Required 失败任务,会阻塞合入。已确认失败主要集中在 PR 修改的依赖安装/兼容性:requirements.txtpaddleformers 固定为 dev 版本,并将 transformers 放宽到 >5.0.0

总执行(rerun次数) 总任务 ✅ 通过 ❌ 失败 ⏳ 运行中 ⏸️ 等待中 跳过
42(0) 42 33 8 0 1 0

2 任务状态汇总

2.1 Required任务 : 5/10 通过

必选任务阻塞合并,失败需优先处理。

状态 任务 耗时 根因 修复建议 日志 重跑
Run FastDeploy Unit Tests and Coverage / run_tests_with_coverage 1h27m PR问题:新依赖组合触发 worker 通信断开 回退/验证 paddleformers 与 transformers 版本 Job -
Run FastDeploy LogProb Tests / run_tests_logprob 3m3s PR问题:wheel 依赖安装失败导致 fastdeploy 缺失 给 logprob 安装命令补 Paddle 包源 Job -
Run Stable Tests / stable_tests 6m26s PR问题:dev 版 paddleformers 索引不可用 给 stable 安装命令补包源或回退版本 Job -
xpu_4cards_case_test / run_xpu_4cards_cases 42s PR问题:dev 版 paddleformers 索引不可用 给 XPU 安装命令补包源或回退版本 Job -
xpu_8cards_case_test / run_xpu_8cards_cases 1m11s PR问题:dev 版 paddleformers 索引不可用 给 XPU 安装命令补包源或回退版本 Job -
其余 5 个必选任务通过 - - - - -

2.2 可选任务 — 28/32 通过

可选任务不阻塞合并,失败仅供参考。

状态 任务 耗时 日志 重跑
Run iluvatar Tests / run_iluvatar_cases 1m54s Job -
xpu_unit_test / run_xpu_unit_test 36s Job -
Trigger Jenkins for PR 19m51s Job -
⏸️ CI_HPU - - -
其余 28 个可选任务通过 - - -

3 失败详情(仅 required)

Run FastDeploy Unit Tests and Coverage / run_tests_with_coverage — 测试失败/依赖兼容(置信度: 中)

Run FastDeploy Unit Tests and Coverage / run_tests_with_coverage

  • 状态: ❌ 失败
  • 错误类型: 测试失败 / 依赖兼容
  • 置信度: 中
  • 根因摘要: 新依赖组合触发 worker 通信断开
  • 分析器: ci_analyze_unittest_fastdeploy

失败用例:

测试 错误 根因
e2e/test_Qwen3VLMoe_serving.py::test_consistency_between_runs AssertionError: HTTP 500 worker 后台退出,API 返回 500
e2e/test_Qwen3VL_serving.py::test_consistency_between_runs AssertionError: HTTP 500 worker 通信断开
e2e/test_pd_reorder.py::test_model_against_baseline RuntimeError: worker hung task queue Broken pipe
model_loader/test_model_cache.py::test_model_cache RuntimeError: worker hung task queue Broken pipe
model_loader/test_torch_model.py::test_model_against_baseline RuntimeError: worker hung task queue Broken pipe

根因详情:
该任务安装阶段成功解析到 PR 指定的依赖组合:paddleformers==1.1.0.dev20260507transformers>5.0.0(日志中实际拉取 transformers 5.x)。随后多个服务/模型加载用例集中在 worker 进程与 task queue 通信处失败,表现为 HTTP 500、worker hung、ConnectionResetError / BrokenPipeError。PR 只修改依赖约束,没有修改 worker/engine 代码,因此更像是新依赖组合引入的运行时兼容问题。

关键日志:

Collecting transformers>5.0.0
Collecting paddleformers==1.1.0.dev20260507
E       assert 500 == 200
ERROR api_server.py[line:964] Worker process has died in the background (code=-9).
ConnectionResetError: [Errno 104] Connection reset by peer
BrokenPipeError: [Errno 32] Broken pipe

修复建议:

  1. requirements.txt L13/L50 回退到已验证组合(如 paddleformers>=1.1.1transformers>=4.55.1,<5.0.0),或补充该 dev 版 paddleformers 与 transformers 5.x 的兼容修复后再跑主测试。
  2. 若本 PR 仅用于验证 dev 包安装,建议先固定 transformers<5.0.0,隔离验证 paddleformers==1.1.0.dev20260507 本身是否可用。

修复建议摘要: 回退/验证 paddleformers 与 transformers 版本
关联变更: requirements.txt L13/L50;.github/workflows/_unit_test_coverage.yml L231
链接: 查看日志

Run FastDeploy LogProb Tests / run_tests_logprob — 依赖安装失败(置信度: 高)

Run FastDeploy LogProb Tests / run_tests_logprob

  • 状态: ❌ 失败
  • 错误类型: 依赖问题
  • 置信度: 高
  • 根因摘要: wheel 依赖安装失败导致 fastdeploy 缺失
  • 分析器: ci_analyze_logprob_fastdeploy

失败详情:

维度 描述
失败类型 安装依赖失败后继续执行
受影响环节 FastDeploy wheel 安装、服务启动
关键错误行 No matching distribution found for paddleformers==1.1.0.dev20260507

根因详情:
_logprob_test_linux.yml 中仍使用 python -m pip install ${fastdeploy_wheel_url},未像部分其它 workflow 一样追加 Paddle stable/nightly 包源。PR 将 wheel 依赖固定到 paddleformers==1.1.0.dev20260507 后,该任务在当前索引无法解析该版本,导致 FastDeploy 没有安装成功;后续服务启动时报 No module named 'fastdeploy',并非 logprob 数值比对失败。

关键日志:

ERROR: Could not find a version that satisfies the requirement paddleformers==1.1.0.dev20260507 (from fastdeploy-gpu)
ERROR: No matching distribution found for paddleformers==1.1.0.dev20260507
安装后检查失败: 导入 FastDeploy 失败
ModuleNotFoundError: No module named 'fastdeploy'

修复建议:

  1. .github/workflows/_logprob_test_linux.yml L195 的 pip install ${fastdeploy_wheel_url} 后追加可解析该 dev 包的 Paddle 包源,或回退 requirements.txt 中的 paddleformers 版本约束。
  2. 建议给安装命令增加失败即退出,避免安装失败后继续运行产生二次错误。

修复建议摘要: 给 logprob 安装命令补 Paddle 包源
关联变更: requirements.txt L13;.github/workflows/_logprob_test_linux.yml L195
链接: 查看日志

Run Stable Tests / stable_tests — 依赖安装失败(置信度: 高)

Run Stable Tests / stable_tests

  • 状态: ❌ 失败
  • 错误类型: 依赖问题
  • 置信度: 高
  • 根因摘要: dev 版 paddleformers 索引不可用
  • 分析器: ci_analyze_unittest_fastdeploy

失败用例:

测试 错误 根因
tests/ci_validation/stable_cases 服务启动失败 FastDeploy 未安装成功

根因详情:
Stable 任务安装 FastDeploy wheel 时依赖解析失败:当前索引只列出 paddleformers 的公开版本,找不到 1.1.0.dev20260507。安装失败后脚本继续执行,最终启动 API server 时无法导入 fastdeploy.entrypoints.openai.api_server

关键日志:

ERROR: Could not find a version that satisfies the requirement paddleformers==1.1.0.dev20260507
ERROR: No matching distribution found for paddleformers==1.1.0.dev20260507
/usr/local/bin/python: Error while finding module specification for 'fastdeploy.entrypoints.openai.api_server'
ModuleNotFoundError: No module named 'fastdeploy'

修复建议:

  1. .github/workflows/_stable_test.yml L195 的 wheel 安装命令补齐 Paddle stable/nightly extra-index,或回退 requirements.txt L13 到可公开解析的版本。
  2. 同步让安装失败立即退出,避免后续 stable case 报服务不可用的二次失败。

修复建议摘要: 给 stable 安装命令补包源或回退版本
关联变更: requirements.txt L13;.github/workflows/_stable_test.yml L195
链接: 查看日志

xpu_4cards_case_test / run_xpu_4cards_cases — 依赖安装失败(置信度: 高)

xpu_4cards_case_test / run_xpu_4cards_cases

  • 状态: ❌ 失败
  • 错误类型: 依赖问题
  • 置信度: 高
  • 根因摘要: dev 版 paddleformers 索引不可用
  • 分析器: ci_analyze_unittest_fastdeploy

失败用例:

测试 错误 根因
tests/xpu_ci/4cards_cases pip install 失败 paddleformers==1.1.0.dev20260507 不在当前索引

根因详情:
XPU 4 卡任务在 python -m pip install ${FASTDEPLOY_WHEEL_URL} 阶段失败,未进入 pytest。PR 将 requirements.txtpaddleformers 固定为 dev 版本,但 XPU workflow 的安装命令没有提供能解析该 dev wheel 的额外包源。

关键日志:

ERROR: Ignored the following yanked versions: 1.1.0
ERROR: Could not find a version that satisfies the requirement paddleformers==1.1.0.dev20260507
ERROR: No matching distribution found for paddleformers==1.1.0.dev20260507

修复建议:

  1. .github/workflows/_xpu_4cards_case_test.yml L190 的 ${FASTDEPLOY_WHEEL_URL} 安装命令补充可用 Paddle 包源,或回退 requirements.txt L13 到可发布版本。
  2. 若目标是验证 XPU 环境下 dev 包,请先确认该 dev wheel 已发布到 XPU CI 能访问的索引。

修复建议摘要: 给 XPU 安装命令补包源或回退版本
关联变更: requirements.txt L13;.github/workflows/_xpu_4cards_case_test.yml L190
链接: 查看日志

xpu_8cards_case_test / run_xpu_8cards_cases — 依赖安装失败(置信度: 高)

xpu_8cards_case_test / run_xpu_8cards_cases

  • 状态: ❌ 失败
  • 错误类型: 依赖问题
  • 置信度: 高
  • 根因摘要: dev 版 paddleformers 索引不可用
  • 分析器: ci_analyze_unittest_fastdeploy

失败用例:

测试 错误 根因
tests/xpu_ci/8cards_cases pip install 失败 paddleformers==1.1.0.dev20260507 不在当前索引

根因详情:
XPU 8 卡任务与 4 卡任务同源,在安装 FastDeploy wheel 依赖阶段找不到 paddleformers==1.1.0.dev20260507,未进入 pytest。该失败与 PR 中 requirements.txt 的 dev 版本固定直接相关。

关键日志:

ERROR: Ignored the following yanked versions: 1.1.0
ERROR: Could not find a version that satisfies the requirement paddleformers==1.1.0.dev20260507
ERROR: No matching distribution found for paddleformers==1.1.0.dev20260507

修复建议:

  1. .github/workflows/_xpu_8cards_case_test.yml${FASTDEPLOY_WHEEL_URL} 安装命令补充可用 Paddle 包源,或回退 requirements.txt L13 到可发布版本。
  2. 与 XPU 4 卡任务保持同一安装源配置,避免 4/8 卡任务分裂。

修复建议摘要: 给 XPU 安装命令补包源或回退版本
关联变更: requirements.txt L13;.github/workflows/_xpu_8cards_case_test.yml
链接: 查看日志

PaddlePaddle-bot

This comment was marked as outdated.

Copy link
Copy Markdown

@PaddlePaddle-bot PaddlePaddle-bot left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🤖 Paddle-CI-Agent | pr_review | 2026-05-26 16:20:48

📋 Review 摘要

PR 概述:调试验证 paddleformers[paddlefleet]==1.1.0.dev20260507 的安装兼容性,同时为 CI workflow 添加额外 pip 索引源
变更范围.github/workflows/(8 个 CI 文件)、requirements.txt
影响面 TagCI

问题

级别 文件 概述
🔴 兼容性 requirements.txt:50 transformers>5.0.0 强制要求 5.x,移除对 4.x 的兼容,属破坏性变更
🟡 建议 requirements.txt:13 paddleformers==1.1.0.dev20260507 为 dev 预发布版本,不应固化到 develop 分支
🟡 建议 .github/workflows/_logprob_test_linux.yml:192 未添加 --extra-index-url,与其他 7 个 workflow 不一致
📝 PR 规范 Checklist "Add unit tests" 已勾选但未添加单测,也未说明原因

📝 PR 规范检查

描述结构完整,但 Checklist 中 "Add unit tests" 已勾选([x]),而本 PR 未添加任何单测,也未在描述中说明原因(checklist 要求"Please write the reason in this PR if no unit tests")。建议将该项改为 [ ] 并补充说明(如"CI-only change, no unit tests needed")。

总体评价

本 PR 为调试性变更,requirements.txt 中将 transformers>=4.55.1,<5.0.0 改为 >5.0.0 是破坏性变更,需修复后才能合入;paddleformers 固化到 dev 版本也不适合长期保留在 develop 分支。

Comment thread requirements.txt
py-cpuinfo
flashinfer-python-paddle @ https://xly-devops.bj.bcebos.com/flashinfer/flashinfer_python_paddle-0.4.1.2-py3-none-any.whl
transformers>=4.55.1,<5.0.0
transformers>5.0.0
Copy link
Copy Markdown

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔴 兼容性 transformers>5.0.0 是破坏性变更

原版本约束 transformers>=4.55.1,<5.0.0 明确排除了 transformers 5.x(因 5.0 有大量 API 变更)。改为 >5.0.0 后:

  1. 强制要求 transformers 5.x,移除对 4.x 的兼容
  2. 可能导致依赖 transformers 4.x API 的代码运行时报错

建议修复方式:

  • 若确认已适配 transformers 5.x,改为 transformers>=5.0.0 并在 PR 中说明适配情况
  • 若仅为调试目的,恢复原约束 transformers>=4.55.1,<5.0.0

Comment thread requirements.txt
uvicorn>=0.38.0
fastapi
paddleformers>=1.1.1
paddleformers==1.1.0.dev20260507
Copy link
Copy Markdown

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🟡 建议 paddleformers==1.1.0.dev20260507 为 dev 预发布版本

PR 描述明确说明这是 "temporary CI changes for debugging",但 dev 版本固化到 requirements.txt 会影响所有使用该文件安装依赖的场景:

  1. dev 版本可能随时从 PyPI 下线
  2. 不适合作为 develop 分支的长期依赖

建议:调试完成后恢复为稳定版本约束(如 paddleformers>=1.1.1)。

@@ -190,11 +190,9 @@ jobs:
-e "no_proxy=localhost,127.0.0.1,0.0.0.0,bcebos.com,.bcebos.com,bj.bcebos.com,su.bcebos.com,paddle-ci.gz.bcebos.com,apiin.im.baidu.com,baidu-int.com,.baidu.com,aliyun.com,gitee.com,pypi.tuna.tsinghua.edu.cn,.tuna.tsinghua.edu.cn" \
--gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
Copy link
Copy Markdown

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🟡 建议 缺少 --extra-index-url,与其他 workflow 不一致

其他 7 个 workflow(_accuracy_test.yml_base_test.yml_golang_router_test.yml 等)均已添加:

--extra-index-url https://www.paddlepaddle.org.cn/packages/stable/cu126/ --extra-index-url https://www.paddlepaddle.org.cn/packages/nightly/cu126/

但本文件的 python -m pip install ${fastdeploy_wheel_url} 未添加,可能导致 logprob 测试因依赖解析失败而与其他测试行为不一致。

建议同步添加相同的 --extra-index-url 参数。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

4 participants