perf: flydsl gdr decode default on by xytpai · Pull Request #752 · ROCm/ATOM

xytpai · 2026-05-11T13:31:06Z

Qwen3-Next-80B-A3B-Instruct-FP8 TP1 CC64

before

============ Serving Benchmark Result ============
Successful requests:                     640       
Failed requests:                         0         
Maximum request concurrency:             64        
Benchmark duration (s):                  214.48    
Total input tokens:                      5291983   
Total generated tokens:                  641529    
Request throughput (req/s):              2.98      
Output token throughput (tok/s):         2991.10   
Peak output token throughput (tok/s):    5184.00   
Peak concurrent requests:                71.00     
Total token throughput (tok/s):          27664.73  
---------------Time to First Token----------------
Mean TTFT (ms):                          645.40    
Median TTFT (ms):                        296.69    
P99 TTFT (ms):                           6822.79   
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms):                          19.96     
Median TPOT (ms):                        20.23     
P99 TPOT (ms):                           26.63     
---------------Inter-token Latency----------------
Mean ITL (ms):                           19.84     
Median ITL (ms):                         12.48     
P99 ITL (ms):                            181.58    
----------------End-to-end Latency----------------
Mean E2EL (ms):                          20505.57  
Median E2EL (ms):                        20441.54  
P99 E2EL (ms):                           37889.31  
==================================================

after

============ Serving Benchmark Result ============
Successful requests:                     640       
Failed requests:                         0         
Maximum request concurrency:             64        
Benchmark duration (s):                  210.18    
Total input tokens:                      5291983   
Total generated tokens:                  641529    
Request throughput (req/s):              3.04      
Output token throughput (tok/s):         3052.27   
Peak output token throughput (tok/s):    5244.00   
Peak concurrent requests:                71.00     
Total token throughput (tok/s):          28230.46  
---------------Time to First Token----------------
Mean TTFT (ms):                          661.36    
Median TTFT (ms):                        294.48    
P99 TTFT (ms):                           6615.41   
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms):                          19.53     
Median TPOT (ms):                        19.74     
P99 TPOT (ms):                           24.88     
---------------Inter-token Latency----------------
Mean ITL (ms):                           19.45     
Median ITL (ms):                         12.22     
P99 ITL (ms):                            178.31    
----------------End-to-end Latency----------------
Mean E2EL (ms):                          20098.61  
Median E2EL (ms):                        20026.14  
P99 E2EL (ms):                           37432.80  
==================================================

Qwen3-Next-80B-A3B-Instruct-FP8 TP4 CC64

before

============ Serving Benchmark Result ============
Successful requests:                     640       
Failed requests:                         0         
Maximum request concurrency:             64        
Benchmark duration (s):                  136.24    
Total input tokens:                      5291983   
Total generated tokens:                  641529    
Request throughput (req/s):              4.70      
Output token throughput (tok/s):         4708.83   
Peak output token throughput (tok/s):    7872.00   
Peak concurrent requests:                74.00     
Total token throughput (tok/s):          43552.01  
---------------Time to First Token----------------
Mean TTFT (ms):                          406.49    
Median TTFT (ms):                        195.60    
P99 TTFT (ms):                           3715.26   
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms):                          12.50     
Median TPOT (ms):                        12.68     
P99 TPOT (ms):                           15.28     
---------------Inter-token Latency----------------
Mean ITL (ms):                           12.46     
Median ITL (ms):                         8.27      
P99 ITL (ms):                            122.44    
----------------End-to-end Latency----------------
Mean E2EL (ms):                          12867.63  
Median E2EL (ms):                        12935.14  
P99 E2EL (ms):                           23693.25  
==================================================

after

============ Serving Benchmark Result ============
Successful requests:                     640       
Failed requests:                         0         
Maximum request concurrency:             64        
Benchmark duration (s):                  135.11    
Total input tokens:                      5291983   
Total generated tokens:                  641529    
Request throughput (req/s):              4.74      
Output token throughput (tok/s):         4748.10   
Peak output token throughput (tok/s):    7872.00   
Peak concurrent requests:                73.00     
Total token throughput (tok/s):          43915.23  
---------------Time to First Token----------------
Mean TTFT (ms):                          406.24    
Median TTFT (ms):                        196.19    
P99 TTFT (ms):                           3634.30   
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms):                          12.41     
Median TPOT (ms):                        12.58     
P99 TPOT (ms):                           15.43     
---------------Inter-token Latency----------------
Mean ITL (ms):                           12.37     
Median ITL (ms):                         8.20      
P99 ITL (ms):                            122.39    
----------------End-to-end Latency----------------
Mean E2EL (ms):                          12761.78  
Median E2EL (ms):                        12802.25  
P99 E2EL (ms):                           23315.74  
==================================================

ATOM_USE_FLYDSL_GDR default ON

416f1b7

xytpai changed the title ~~flydsl gdr decode default on~~ perf: flydsl gdr decode default on May 11, 2026

xytpai added 2 commits May 12, 2026 11:48

Update attention_gdn.py

b7657d6

Merge branch 'main' into xyt/flydsl_gdr_on

539f31a

xytpai requested a review from ganyi1996ppo May 12, 2026 04:09

ganyi1996ppo approved these changes May 12, 2026

View reviewed changes

xytpai added 2 commits May 13, 2026 22:52

Merge branch 'main' into xyt/flydsl_gdr_on

b665af8

Merge branch 'main' into xyt/flydsl_gdr_on

c5b4024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

perf: flydsl gdr decode default on#752

perf: flydsl gdr decode default on#752
xytpai wants to merge 5 commits into
mainfrom
xyt/flydsl_gdr_on

xytpai commented May 11, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

xytpai commented May 11, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Qwen3-Next-80B-A3B-Instruct-FP8 TP1 CC64

Qwen3-Next-80B-A3B-Instruct-FP8 TP4 CC64

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

xytpai commented May 11, 2026 •

edited

Loading