onnx-diagnostic/_keep_dump_test/test_qwen25_vli_visual.cpu.float32.LOOPMHA.custom.graph.ep.graph at f4dc9d193744ea65ac2f6f3a847942996b759beb · sdpython/onnx-diagnostic · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
graph():
    %p_patch_embed_proj_weight : [num_users=1] = placeholder[target=p_patch_embed_proj_weight]
    %p_blocks_0_norm1_weight : [num_users=1] = placeholder[target=p_blocks_0_norm1_weight]
    %p_blocks_0_norm2_weight : [num_users=1] = placeholder[target=p_blocks_0_norm2_weight]
    %p_blocks_0_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_0_attn_qkv_weight]
    %p_blocks_0_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_0_attn_qkv_bias]
    %p_blocks_0_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_0_attn_proj_weight]
    %p_blocks_0_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_0_attn_proj_bias]
    %p_blocks_0_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_0_mlp_gate_proj_weight]
    %p_blocks_0_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_0_mlp_gate_proj_bias]
    %p_blocks_0_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_0_mlp_up_proj_weight]
    %p_blocks_0_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_0_mlp_up_proj_bias]
    %p_blocks_0_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_0_mlp_down_proj_weight]
    %p_blocks_0_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_0_mlp_down_proj_bias]
    %p_blocks_1_norm1_weight : [num_users=1] = placeholder[target=p_blocks_1_norm1_weight]
    %p_blocks_1_norm2_weight : [num_users=1] = placeholder[target=p_blocks_1_norm2_weight]
    %p_blocks_1_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_1_attn_qkv_weight]
    %p_blocks_1_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_1_attn_qkv_bias]
    %p_blocks_1_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_1_attn_proj_weight]
    %p_blocks_1_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_1_attn_proj_bias]
    %p_blocks_1_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_1_mlp_gate_proj_weight]
    %p_blocks_1_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_1_mlp_gate_proj_bias]
    %p_blocks_1_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_1_mlp_up_proj_weight]
    %p_blocks_1_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_1_mlp_up_proj_bias]
    %p_blocks_1_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_1_mlp_down_proj_weight]
    %p_blocks_1_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_1_mlp_down_proj_bias]
    %p_blocks_2_norm1_weight : [num_users=1] = placeholder[target=p_blocks_2_norm1_weight]
    %p_blocks_2_norm2_weight : [num_users=1] = placeholder[target=p_blocks_2_norm2_weight]
    %p_blocks_2_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_2_attn_qkv_weight]
    %p_blocks_2_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_2_attn_qkv_bias]
    %p_blocks_2_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_2_attn_proj_weight]
    %p_blocks_2_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_2_attn_proj_bias]
    %p_blocks_2_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_2_mlp_gate_proj_weight]
    %p_blocks_2_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_2_mlp_gate_proj_bias]
    %p_blocks_2_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_2_mlp_up_proj_weight]
    %p_blocks_2_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_2_mlp_up_proj_bias]
    %p_blocks_2_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_2_mlp_down_proj_weight]
    %p_blocks_2_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_2_mlp_down_proj_bias]
    %p_blocks_3_norm1_weight : [num_users=1] = placeholder[target=p_blocks_3_norm1_weight]
    %p_blocks_3_norm2_weight : [num_users=1] = placeholder[target=p_blocks_3_norm2_weight]
    %p_blocks_3_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_3_attn_qkv_weight]
    %p_blocks_3_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_3_attn_qkv_bias]
    %p_blocks_3_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_3_attn_proj_weight]
    %p_blocks_3_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_3_attn_proj_bias]
    %p_blocks_3_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_3_mlp_gate_proj_weight]
    %p_blocks_3_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_3_mlp_gate_proj_bias]
    %p_blocks_3_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_3_mlp_up_proj_weight]
    %p_blocks_3_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_3_mlp_up_proj_bias]
    %p_blocks_3_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_3_mlp_down_proj_weight]
    %p_blocks_3_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_3_mlp_down_proj_bias]
    %p_blocks_4_norm1_weight : [num_users=1] = placeholder[target=p_blocks_4_norm1_weight]
    %p_blocks_4_norm2_weight : [num_users=1] = placeholder[target=p_blocks_4_norm2_weight]
    %p_blocks_4_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_4_attn_qkv_weight]
    %p_blocks_4_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_4_attn_qkv_bias]
    %p_blocks_4_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_4_attn_proj_weight]
    %p_blocks_4_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_4_attn_proj_bias]
    %p_blocks_4_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_4_mlp_gate_proj_weight]
    %p_blocks_4_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_4_mlp_gate_proj_bias]
    %p_blocks_4_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_4_mlp_up_proj_weight]
    %p_blocks_4_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_4_mlp_up_proj_bias]
    %p_blocks_4_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_4_mlp_down_proj_weight]
    %p_blocks_4_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_4_mlp_down_proj_bias]
    %p_blocks_5_norm1_weight : [num_users=1] = placeholder[target=p_blocks_5_norm1_weight]
    %p_blocks_5_norm2_weight : [num_users=1] = placeholder[target=p_blocks_5_norm2_weight]
    %p_blocks_5_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_5_attn_qkv_weight]
    %p_blocks_5_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_5_attn_qkv_bias]
    %p_blocks_5_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_5_attn_proj_weight]
    %p_blocks_5_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_5_attn_proj_bias]
    %p_blocks_5_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_5_mlp_gate_proj_weight]
    %p_blocks_5_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_5_mlp_gate_proj_bias]
    %p_blocks_5_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_5_mlp_up_proj_weight]
    %p_blocks_5_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_5_mlp_up_proj_bias]
    %p_blocks_5_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_5_mlp_down_proj_weight]
    %p_blocks_5_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_5_mlp_down_proj_bias]
    %p_blocks_6_norm1_weight : [num_users=1] = placeholder[target=p_blocks_6_norm1_weight]
    %p_blocks_6_norm2_weight : [num_users=1] = placeholder[target=p_blocks_6_norm2_weight]
    %p_blocks_6_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_6_attn_qkv_weight]
    %p_blocks_6_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_6_attn_qkv_bias]
    %p_blocks_6_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_6_attn_proj_weight]
    %p_blocks_6_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_6_attn_proj_bias]
    %p_blocks_6_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_6_mlp_gate_proj_weight]
    %p_blocks_6_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_6_mlp_gate_proj_bias]
    %p_blocks_6_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_6_mlp_up_proj_weight]
    %p_blocks_6_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_6_mlp_up_proj_bias]
    %p_blocks_6_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_6_mlp_down_proj_weight]
    %p_blocks_6_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_6_mlp_down_proj_bias]
    %p_blocks_7_norm1_weight : [num_users=1] = placeholder[target=p_blocks_7_norm1_weight]
    %p_blocks_7_norm2_weight : [num_users=1] = placeholder[target=p_blocks_7_norm2_weight]
    %p_blocks_7_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_7_attn_qkv_weight]
    %p_blocks_7_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_7_attn_qkv_bias]
    %p_blocks_7_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_7_attn_proj_weight]
    %p_blocks_7_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_7_attn_proj_bias]
    %p_blocks_7_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_7_mlp_gate_proj_weight]
    %p_blocks_7_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_7_mlp_gate_proj_bias]
    %p_blocks_7_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_7_mlp_up_proj_weight]
    %p_blocks_7_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_7_mlp_up_proj_bias]
    %p_blocks_7_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_7_mlp_down_proj_weight]
    %p_blocks_7_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_7_mlp_down_proj_bias]
    %p_blocks_8_norm1_weight : [num_users=1] = placeholder[target=p_blocks_8_norm1_weight]
    %p_blocks_8_norm2_weight : [num_users=1] = placeholder[target=p_blocks_8_norm2_weight]
    %p_blocks_8_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_8_attn_qkv_weight]
    %p_blocks_8_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_8_attn_qkv_bias]
    %p_blocks_8_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_8_attn_proj_weight]
    %p_blocks_8_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_8_attn_proj_bias]
    %p_blocks_8_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_8_mlp_gate_proj_weight]
    %p_blocks_8_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_8_mlp_gate_proj_bias]
    %p_blocks_8_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_8_mlp_up_proj_weight]
    %p_blocks_8_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_8_mlp_up_proj_bias]
    %p_blocks_8_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_8_mlp_down_proj_weight]
    %p_blocks_8_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_8_mlp_down_proj_bias]
    %p_blocks_9_norm1_weight : [num_users=1] = placeholder[target=p_blocks_9_norm1_weight]
    %p_blocks_9_norm2_weight : [num_users=1] = placeholder[target=p_blocks_9_norm2_weight]
    %p_blocks_9_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_9_attn_qkv_weight]
    %p_blocks_9_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_9_attn_qkv_bias]
    %p_blocks_9_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_9_attn_proj_weight]
    %p_blocks_9_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_9_attn_proj_bias]
    %p_blocks_9_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_9_mlp_gate_proj_weight]
    %p_blocks_9_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_9_mlp_gate_proj_bias]
    %p_blocks_9_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_9_mlp_up_proj_weight]
    %p_blocks_9_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_9_mlp_up_proj_bias]
    %p_blocks_9_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_9_mlp_down_proj_weight]
    %p_blocks_9_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_9_mlp_down_proj_bias]
    %p_blocks_10_norm1_weight : [num_users=1] = placeholder[target=p_blocks_10_norm1_weight]
    %p_blocks_10_norm2_weight : [num_users=1] = placeholder[target=p_blocks_10_norm2_weight]
    %p_blocks_10_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_10_attn_qkv_weight]
    %p_blocks_10_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_10_attn_qkv_bias]
    %p_blocks_10_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_10_attn_proj_weight]
    %p_blocks_10_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_10_attn_proj_bias]
    %p_blocks_10_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_10_mlp_gate_proj_weight]
    %p_blocks_10_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_10_mlp_gate_proj_bias]
    %p_blocks_10_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_10_mlp_up_proj_weight]
    %p_blocks_10_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_10_mlp_up_proj_bias]
    %p_blocks_10_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_10_mlp_down_proj_weight]
    %p_blocks_10_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_10_mlp_down_proj_bias]
    %p_blocks_11_norm1_weight : [num_users=1] = placeholder[target=p_blocks_11_norm1_weight]
    %p_blocks_11_norm2_weight : [num_users=1] = placeholder[target=p_blocks_11_norm2_weight]
    %p_blocks_11_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_11_attn_qkv_weight]
    %p_blocks_11_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_11_attn_qkv_bias]
    %p_blocks_11_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_11_attn_proj_weight]
    %p_blocks_11_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_11_attn_proj_bias]
    %p_blocks_11_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_11_mlp_gate_proj_weight]
    %p_blocks_11_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_11_mlp_gate_proj_bias]
    %p_blocks_11_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_11_mlp_up_proj_weight]
    %p_blocks_11_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_11_mlp_up_proj_bias]
    %p_blocks_11_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_11_mlp_down_proj_weight]
    %p_blocks_11_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_11_mlp_down_proj_bias]
    %p_blocks_12_norm1_weight : [num_users=1] = placeholder[target=p_blocks_12_norm1_weight]
    %p_blocks_12_norm2_weight : [num_users=1] = placeholder[target=p_blocks_12_norm2_weight]
    %p_blocks_12_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_12_attn_qkv_weight]
    %p_blocks_12_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_12_attn_qkv_bias]
    %p_blocks_12_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_12_attn_proj_weight]
    %p_blocks_12_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_12_attn_proj_bias]
    %p_blocks_12_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_12_mlp_gate_proj_weight]
    %p_blocks_12_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_12_mlp_gate_proj_bias]
    %p_blocks_12_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_12_mlp_up_proj_weight]
    %p_blocks_12_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_12_mlp_up_proj_bias]
    %p_blocks_12_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_12_mlp_down_proj_weight]
    %p_blocks_12_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_12_mlp_down_proj_bias]
    %p_blocks_13_norm1_weight : [num_users=1] = placeholder[target=p_blocks_13_norm1_weight]
    %p_blocks_13_norm2_weight : [num_users=1] = placeholder[target=p_blocks_13_norm2_weight]
    %p_blocks_13_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_13_attn_qkv_weight]
    %p_blocks_13_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_13_attn_qkv_bias]
    %p_blocks_13_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_13_attn_proj_weight]
    %p_blocks_13_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_13_attn_proj_bias]
    %p_blocks_13_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_13_mlp_gate_proj_weight]
    %p_blocks_13_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_13_mlp_gate_proj_bias]
    %p_blocks_13_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_13_mlp_up_proj_weight]
    %p_blocks_13_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_13_mlp_up_proj_bias]
    %p_blocks_13_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_13_mlp_down_proj_weight]
    %p_blocks_13_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_13_mlp_down_proj_bias]
    %p_blocks_14_norm1_weight : [num_users=1] = placeholder[target=p_blocks_14_norm1_weight]
    %p_blocks_14_norm2_weight : [num_users=1] = placeholder[target=p_blocks_14_norm2_weight]
    %p_blocks_14_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_14_attn_qkv_weight]
    %p_blocks_14_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_14_attn_qkv_bias]
    %p_blocks_14_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_14_attn_proj_weight]
    %p_blocks_14_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_14_attn_proj_bias]
    %p_blocks_14_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_14_mlp_gate_proj_weight]
    %p_blocks_14_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_14_mlp_gate_proj_bias]
    %p_blocks_14_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_14_mlp_up_proj_weight]
    %p_blocks_14_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_14_mlp_up_proj_bias]
    %p_blocks_14_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_14_mlp_down_proj_weight]
    %p_blocks_14_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_14_mlp_down_proj_bias]
    %p_blocks_15_norm1_weight : [num_users=1] = placeholder[target=p_blocks_15_norm1_weight]
    %p_blocks_15_norm2_weight : [num_users=1] = placeholder[target=p_blocks_15_norm2_weight]
    %p_blocks_15_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_15_attn_qkv_weight]
    %p_blocks_15_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_15_attn_qkv_bias]
    %p_blocks_15_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_15_attn_proj_weight]
    %p_blocks_15_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_15_attn_proj_bias]
    %p_blocks_15_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_15_mlp_gate_proj_weight]
    %p_blocks_15_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_15_mlp_gate_proj_bias]
    %p_blocks_15_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_15_mlp_up_proj_weight]
    %p_blocks_15_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_15_mlp_up_proj_bias]
    %p_blocks_15_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_15_mlp_down_proj_weight]
    %p_blocks_15_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_15_mlp_down_proj_bias]
    %p_blocks_16_norm1_weight : [num_users=1] = placeholder[target=p_blocks_16_norm1_weight]
    %p_blocks_16_norm2_weight : [num_users=1] = placeholder[target=p_blocks_16_norm2_weight]
    %p_blocks_16_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_16_attn_qkv_weight]
    %p_blocks_16_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_16_attn_qkv_bias]
    %p_blocks_16_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_16_attn_proj_weight]
    %p_blocks_16_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_16_attn_proj_bias]
    %p_blocks_16_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_16_mlp_gate_proj_weight]
    %p_blocks_16_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_16_mlp_gate_proj_bias]
    %p_blocks_16_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_16_mlp_up_proj_weight]
    %p_blocks_16_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_16_mlp_up_proj_bias]
    %p_blocks_16_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_16_mlp_down_proj_weight]
    %p_blocks_16_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_16_mlp_down_proj_bias]
    %p_blocks_17_norm1_weight : [num_users=1] = placeholder[target=p_blocks_17_norm1_weight]
    %p_blocks_17_norm2_weight : [num_users=1] = placeholder[target=p_blocks_17_norm2_weight]
    %p_blocks_17_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_17_attn_qkv_weight]
    %p_blocks_17_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_17_attn_qkv_bias]
    %p_blocks_17_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_17_attn_proj_weight]
    %p_blocks_17_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_17_attn_proj_bias]
    %p_blocks_17_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_17_mlp_gate_proj_weight]
    %p_blocks_17_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_17_mlp_gate_proj_bias]
    %p_blocks_17_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_17_mlp_up_proj_weight]
    %p_blocks_17_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_17_mlp_up_proj_bias]
    %p_blocks_17_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_17_mlp_down_proj_weight]
    %p_blocks_17_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_17_mlp_down_proj_bias]
    %p_blocks_18_norm1_weight : [num_users=1] = placeholder[target=p_blocks_18_norm1_weight]
    %p_blocks_18_norm2_weight : [num_users=1] = placeholder[target=p_blocks_18_norm2_weight]
    %p_blocks_18_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_18_attn_qkv_weight]
    %p_blocks_18_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_18_attn_qkv_bias]
    %p_blocks_18_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_18_attn_proj_weight]
    %p_blocks_18_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_18_attn_proj_bias]
    %p_blocks_18_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_18_mlp_gate_proj_weight]
    %p_blocks_18_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_18_mlp_gate_proj_bias]
    %p_blocks_18_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_18_mlp_up_proj_weight]
    %p_blocks_18_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_18_mlp_up_proj_bias]
    %p_blocks_18_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_18_mlp_down_proj_weight]
    %p_blocks_18_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_18_mlp_down_proj_bias]
    %p_blocks_19_norm1_weight : [num_users=1] = placeholder[target=p_blocks_19_norm1_weight]
    %p_blocks_19_norm2_weight : [num_users=1] = placeholder[target=p_blocks_19_norm2_weight]
    %p_blocks_19_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_19_attn_qkv_weight]
    %p_blocks_19_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_19_attn_qkv_bias]
    %p_blocks_19_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_19_attn_proj_weight]
    %p_blocks_19_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_19_attn_proj_bias]
    %p_blocks_19_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_19_mlp_gate_proj_weight]
    %p_blocks_19_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_19_mlp_gate_proj_bias]
    %p_blocks_19_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_19_mlp_up_proj_weight]
    %p_blocks_19_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_19_mlp_up_proj_bias]
    %p_blocks_19_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_19_mlp_down_proj_weight]
    %p_blocks_19_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_19_mlp_down_proj_bias]
    %p_blocks_20_norm1_weight : [num_users=1] = placeholder[target=p_blocks_20_norm1_weight]
    %p_blocks_20_norm2_weight : [num_users=1] = placeholder[target=p_blocks_20_norm2_weight]
    %p_blocks_20_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_20_attn_qkv_weight]
    %p_blocks_20_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_20_attn_qkv_bias]
    %p_blocks_20_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_20_attn_proj_weight]
    %p_blocks_20_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_20_attn_proj_bias]
    %p_blocks_20_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_20_mlp_gate_proj_weight]
    %p_blocks_20_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_20_mlp_gate_proj_bias]
    %p_blocks_20_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_20_mlp_up_proj_weight]
    %p_blocks_20_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_20_mlp_up_proj_bias]
    %p_blocks_20_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_20_mlp_down_proj_weight]
    %p_blocks_20_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_20_mlp_down_proj_bias]
    %p_blocks_21_norm1_weight : [num_users=1] = placeholder[target=p_blocks_21_norm1_weight]
    %p_blocks_21_norm2_weight : [num_users=1] = placeholder[target=p_blocks_21_norm2_weight]
    %p_blocks_21_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_21_attn_qkv_weight]
    %p_blocks_21_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_21_attn_qkv_bias]
    %p_blocks_21_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_21_attn_proj_weight]
    %p_blocks_21_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_21_attn_proj_bias]
    %p_blocks_21_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_21_mlp_gate_proj_weight]
    %p_blocks_21_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_21_mlp_gate_proj_bias]
    %p_blocks_21_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_21_mlp_up_proj_weight]
    %p_blocks_21_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_21_mlp_up_proj_bias]
    %p_blocks_21_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_21_mlp_down_proj_weight]
    %p_blocks_21_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_21_mlp_down_proj_bias]
    %p_blocks_22_norm1_weight : [num_users=1] = placeholder[target=p_blocks_22_norm1_weight]
    %p_blocks_22_norm2_weight : [num_users=1] = placeholder[target=p_blocks_22_norm2_weight]
    %p_blocks_22_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_22_attn_qkv_weight]
    %p_blocks_22_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_22_attn_qkv_bias]
    %p_blocks_22_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_22_attn_proj_weight]
    %p_blocks_22_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_22_attn_proj_bias]
    %p_blocks_22_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_22_mlp_gate_proj_weight]
    %p_blocks_22_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_22_mlp_gate_proj_bias]
    %p_blocks_22_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_22_mlp_up_proj_weight]
    %p_blocks_22_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_22_mlp_up_proj_bias]
    %p_blocks_22_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_22_mlp_down_proj_weight]
    %p_blocks_22_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_22_mlp_down_proj_bias]
    %p_blocks_23_norm1_weight : [num_users=1] = placeholder[target=p_blocks_23_norm1_weight]
    %p_blocks_23_norm2_weight : [num_users=1] = placeholder[target=p_blocks_23_norm2_weight]
    %p_blocks_23_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_23_attn_qkv_weight]
    %p_blocks_23_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_23_attn_qkv_bias]
    %p_blocks_23_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_23_attn_proj_weight]
    %p_blocks_23_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_23_attn_proj_bias]
    %p_blocks_23_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_23_mlp_gate_proj_weight]
    %p_blocks_23_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_23_mlp_gate_proj_bias]
    %p_blocks_23_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_23_mlp_up_proj_weight]
    %p_blocks_23_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_23_mlp_up_proj_bias]
    %p_blocks_23_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_23_mlp_down_proj_weight]
    %p_blocks_23_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_23_mlp_down_proj_bias]
    %p_blocks_24_norm1_weight : [num_users=1] = placeholder[target=p_blocks_24_norm1_weight]
    %p_blocks_24_norm2_weight : [num_users=1] = placeholder[target=p_blocks_24_norm2_weight]
    %p_blocks_24_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_24_attn_qkv_weight]
    %p_blocks_24_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_24_attn_qkv_bias]
    %p_blocks_24_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_24_attn_proj_weight]
    %p_blocks_24_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_24_attn_proj_bias]
    %p_blocks_24_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_24_mlp_gate_proj_weight]
    %p_blocks_24_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_24_mlp_gate_proj_bias]
    %p_blocks_24_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_24_mlp_up_proj_weight]
    %p_blocks_24_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_24_mlp_up_proj_bias]
    %p_blocks_24_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_24_mlp_down_proj_weight]
    %p_blocks_24_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_24_mlp_down_proj_bias]
    %p_blocks_25_norm1_weight : [num_users=1] = placeholder[target=p_blocks_25_norm1_weight]
    %p_blocks_25_norm2_weight : [num_users=1] = placeholder[target=p_blocks_25_norm2_weight]
    %p_blocks_25_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_25_attn_qkv_weight]
    %p_blocks_25_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_25_attn_qkv_bias]
    %p_blocks_25_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_25_attn_proj_weight]
    %p_blocks_25_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_25_attn_proj_bias]
    %p_blocks_25_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_25_mlp_gate_proj_weight]
    %p_blocks_25_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_25_mlp_gate_proj_bias]
    %p_blocks_25_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_25_mlp_up_proj_weight]
    %p_blocks_25_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_25_mlp_up_proj_bias]
    %p_blocks_25_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_25_mlp_down_proj_weight]
    %p_blocks_25_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_25_mlp_down_proj_bias]
    %p_blocks_26_norm1_weight : [num_users=1] = placeholder[target=p_blocks_26_norm1_weight]
    %p_blocks_26_norm2_weight : [num_users=1] = placeholder[target=p_blocks_26_norm2_weight]
    %p_blocks_26_attn_qkv_weight : [num_users=1] = placeholder[target=p_blocks_26_attn_qkv_weight]
    %p_blocks_26_attn_qkv_bias : [num_users=1] = placeholder[target=p_blocks_26_attn_qkv_bias]
    %p_blocks_26_attn_proj_weight : [num_users=1] = placeholder[target=p_blocks_26_attn_proj_weight]
    %p_blocks_26_attn_proj_bias : [num_users=1] = placeholder[target=p_blocks_26_attn_proj_bias]
    %p_blocks_26_mlp_gate_proj_weight : [num_users=1] = placeholder[target=p_blocks_26_mlp_gate_proj_weight]
    %p_blocks_26_mlp_gate_proj_bias : [num_users=1] = placeholder[target=p_blocks_26_mlp_gate_proj_bias]
    %p_blocks_26_mlp_up_proj_weight : [num_users=1] = placeholder[target=p_blocks_26_mlp_up_proj_weight]
    %p_blocks_26_mlp_up_proj_bias : [num_users=1] = placeholder[target=p_blocks_26_mlp_up_proj_bias]
    %p_blocks_26_mlp_down_proj_weight : [num_users=1] = placeholder[target=p_blocks_26_mlp_down_proj_weight]
    %p_blocks_26_mlp_down_proj_bias : [num_users=1] = placeholder[target=p_blocks_26_mlp_down_proj_bias]
    %p_blocks_27_norm1_weight : [num_users=0] = placeholder[target=p_blocks_27_norm1_weight]
    %p_blocks_27_norm2_weight : [num_users=0] = placeholder[target=p_blocks_27_norm2_weight]
    %p_blocks_27_attn_qkv_weight : [num_users=0] = placeholder[target=p_blocks_27_attn_qkv_weight]
    %p_blocks_27_attn_qkv_bias : [num_users=0] = placeholder[target=p_blocks_27_attn_qkv_bias]
    %p_blocks_27_attn_proj_weight : [num_users=0] = placeholder[target=p_blocks_27_attn_proj_weight]
    %p_blocks_27_attn_proj_bias : [num_users=0] = placeholder[target=p_blocks_27_attn_proj_bias]
    %p_blocks_27_mlp_gate_proj_weight : [num_users=0] = placeholder[target=p_blocks_27_mlp_gate_proj_weight]
    %p_blocks_27_mlp_gate_proj_bias : [num_users=0] = placeholder[target=p_blocks_27_mlp_gate_proj_bias]
    %p_blocks_27_mlp_up_proj_weight : [num_users=0] = placeholder[target=p_blocks_27_mlp_up_proj_weight]
    %p_blocks_27_mlp_up_proj_bias : [num_users=0] = placeholder[target=p_blocks_27_mlp_up_proj_bias]
    %p_blocks_27_mlp_down_proj_weight : [num_users=0] = placeholder[target=p_blocks_27_mlp_down_proj_weight]
    %p_blocks_27_mlp_down_proj_bias : [num_users=0] = placeholder[target=p_blocks_27_mlp_down_proj_bias]
    %p_blocks_28_norm1_weight : [num_users=0] = placeholder[target=p_blocks_28_norm1_weight]
    %p_blocks_28_norm2_weight : [num_users=0] = placeholder[target=p_blocks_28_norm2_weight]
    %p_blocks_28_attn_qkv_weight : [num_users=0] = placeholder[target=p_blocks_28_attn_qkv_weight]
    %p_blocks_28_attn_qkv_bias : [num_users=0] = placeholder[target=p_blocks_28_attn_qkv_bias]
    %p_blocks_28_attn_proj_weight : [num_users=0] = placeholder[target=p_blocks_28_attn_proj_weight]
    %p_blocks_28_attn_proj_bias : [num_users=0] = placeholder[target=p_blocks_28_attn_proj_bias]
    %p_blocks_28_mlp_gate_proj_weight : [num_users=0] = placeholder[target=p_blocks_28_mlp_gate_proj_weight]
    %p_blocks_28_mlp_gate_proj_bias : [num_users=0] = placeholder[target=p_blocks_28_mlp_gate_proj_bias]
    %p_blocks_28_mlp_up_proj_weight : [num_users=0] = placeholder[target=p_blocks_28_mlp_up_proj_weight]
    %p_blocks_28_mlp_up_proj_bias : [num_users=0] = placeholder[target=p_blocks_28_mlp_up_proj_bias]
    %p_blocks_28_mlp_down_proj_weight : [num_users=0] = placeholder[target=p_blocks_28_mlp_down_proj_weight]
    %p_blocks_28_mlp_down_proj_bias : [num_users=0] = placeholder[target=p_blocks_28_mlp_down_proj_bias]
    %p_blocks_29_norm1_weight : [num_users=0] = placeholder[target=p_blocks_29_norm1_weight]
    %p_blocks_29_norm2_weight : [num_users=0] = placeholder[target=p_blocks_29_norm2_weight]
    %p_blocks_29_attn_qkv_weight : [num_users=0] = placeholder[target=p_blocks_29_attn_qkv_weight]
    %p_blocks_29_attn_qkv_bias : [num_users=0] = placeholder[target=p_blocks_29_attn_qkv_bias]
    %p_blocks_29_attn_proj_weight : [num_users=0] = placeholder[target=p_blocks_29_attn_proj_weight]
    %p_blocks_29_attn_proj_bias : [num_users=0] = placeholder[target=p_blocks_29_attn_proj_bias]
    %p_blocks_29_mlp_gate_proj_weight : [num_users=0] = placeholder[target=p_blocks_29_mlp_gate_proj_weight]
    %p_blocks_29_mlp_gate_proj_bias : [num_users=0] = placeholder[target=p_blocks_29_mlp_gate_proj_bias]
    %p_blocks_29_mlp_up_proj_weight : [num_users=0] = placeholder[target=p_blocks_29_mlp_up_proj_weight]
    %p_blocks_29_mlp_up_proj_bias : [num_users=0] = placeholder[target=p_blocks_29_mlp_up_proj_bias]
    %p_blocks_29_mlp_down_proj_weight : [num_users=0] = placeholder[target=p_blocks_29_mlp_down_proj_weight]
    %p_blocks_29_mlp_down_proj_bias : [num_users=0] = placeholder[target=p_blocks_29_mlp_down_proj_bias]
    %p_blocks_30_norm1_weight : [num_users=0] = placeholder[target=p_blocks_30_norm1_weight]
    %p_blocks_30_norm2_weight : [num_users=0] = placeholder[target=p_blocks_30_norm2_weight]
    %p_blocks_30_attn_qkv_weight : [num_users=0] = placeholder[target=p_blocks_30_attn_qkv_weight]
    %p_blocks_30_attn_qkv_bias : [num_users=0] = placeholder[target=p_blocks_30_attn_qkv_bias]
    %p_blocks_30_attn_proj_weight : [num_users=0] = placeholder[target=p_blocks_30_attn_proj_weight]
    %p_blocks_30_attn_proj_bias : [num_users=0] = placeholder[target=p_blocks_30_attn_proj_bias]
    %p_blocks_30_mlp_gate_proj_weight : [num_users=0] = placeholder[target=p_blocks_30_mlp_gate_proj_weight]
    %p_blocks_30_mlp_gate_proj_bias : [num_users=0] = placeholder[target=p_blocks_30_mlp_gate_proj_bias]
    %p_blocks_30_mlp_up_proj_weight : [num_users=0] = placeholder[target=p_blocks_30_mlp_up_proj_weight]
    %p_blocks_30_mlp_up_proj_bias : [num_users=0] = placeholder[target=p_blocks_30_mlp_up_proj_bias]
    %p_blocks_30_mlp_down_proj_weight : [num_users=0] = placeholder[target=p_blocks_30_mlp_down_proj_weight]
    %p_blocks_30_mlp_down_proj_bias : [num_users=0] = placeholder[target=p_blocks_30_mlp_down_proj_bias]
    %p_blocks_31_norm1_weight : [num_users=0] = placeholder[target=p_blocks_31_norm1_weight]
    %p_blocks_31_norm2_weight : [num_users=0] = placeholder[target=p_blocks_31_norm2_weight]
    %p_blocks_31_attn_qkv_weight : [num_users=0] = placeholder[target=p_blocks_31_attn_qkv_weight]
    %p_blocks_31_attn_qkv_bias : [num_users=0] = placeholder[target=p_blocks_31_attn_qkv_bias]
    %p_blocks_31_attn_proj_weight : [num_users=0] = placeholder[target=p_blocks_31_attn_proj_weight]
    %p_blocks_31_attn_proj_bias : [num_users=0] = placeholder[target=p_blocks_31_attn_proj_bias]
    %p_blocks_31_mlp_gate_proj_weight : [num_users=0] = placeholder[target=p_blocks_31_mlp_gate_proj_weight]
    %p_blocks_31_mlp_gate_proj_bias : [num_users=0] = placeholder[target=p_blocks_31_mlp_gate_proj_bias]
    %p_blocks_31_mlp_up_proj_weight : [num_users=0] = placeholder[target=p_blocks_31_mlp_up_proj_weight]
    %p_blocks_31_mlp_up_proj_bias : [num_users=0] = placeholder[target=p_blocks_31_mlp_up_proj_bias]
    %p_blocks_31_mlp_down_proj_weight : [num_users=0] = placeholder[target=p_blocks_31_mlp_down_proj_weight]
    %p_blocks_31_mlp_down_proj_bias : [num_users=0] = placeholder[target=p_blocks_31_mlp_down_proj_bias]
    %p_merger_ln_q_weight : [num_users=1] = placeholder[target=p_merger_ln_q_weight]
    %p_merger_mlp_0_weight : [num_users=0] = placeholder[target=p_merger_mlp_0_weight]
    %p_merger_mlp_0_bias : [num_users=0] = placeholder[target=p_merger_mlp_0_bias]
    %p_merger_mlp_2_weight : [num_users=0] = placeholder[target=p_merger_mlp_2_weight]
    %p_merger_mlp_2_bias : [num_users=0] = placeholder[target=p_merger_mlp_2_bias]
    %b_rotary_pos_emb_inv_freq : [num_users=1] = placeholder[target=b_rotary_pos_emb_inv_freq]
    %c_lifted_tensor_0 : [num_users=1] = placeholder[target=c_lifted_tensor_0]
    %hidden_states : [num_users=2] = placeholder[target=hidden_states]
    %grid_thw : [num_users=6] = placeholder[target=grid_thw]
    %sym_size_int_4 : [num_users=64] = call_function[target=torch.ops.aten.sym_size.int](args = (%hidden_states, 0), kwargs = {})
    %view : [num_users=2] = call_function[target=torch.ops.aten.view.default](args = (%hidden_states, [-1, 3, 2, 14, 14]), kwargs = {})
    %_assert_tensor_metadata_default : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%view,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%view, torch.float32), kwargs = {})
    %conv3d : [num_users=1] = call_function[target=torch.ops.aten.conv3d.default](args = (%to, %p_patch_embed_proj_weight, None, [2, 14, 14]), kwargs = {})
    %view_1 : [num_users=1] = call_function[target=torch.ops.aten.view.default](args = (%conv3d, [-1, 1280]), kwargs = {})
    %unbind : [num_users=1] = call_function[target=torch.ops.aten.unbind.int](args = (%grid_thw,), kwargs = {})
    %getitem : [num_users=3] = call_function[target=operator.getitem](args = (%unbind, 0), kwargs = {})
    %select : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%getitem, 0, 0), kwargs = {})
    %select_1 : [num_users=3] = call_function[target=torch.ops.aten.select.int](args = (%getitem, 0, 1), kwargs = {})
    %select_2 : [num_users=3] = call_function[target=torch.ops.aten.select.int](args = (%getitem, 0, 2), kwargs = {})
    %item : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%select_1,), kwargs = {})
    %ge : [num_users=1] = call_function[target=operator.ge](args = (%item, 0), kwargs = {})
    %_assert_scalar_default : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge, Runtime assertion failed for expression u0 >= 0 on node 'ge'), kwargs = {})
    %arange : [num_users=1] = call_function[target=torch.ops.aten.arange.default](args = (%item,), kwargs = {device: cpu, pin_memory: False})
    %unsqueeze : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%arange, 1), kwargs = {})
    %item_1 : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%select_2,), kwargs = {})
    %ge_1 : [num_users=1] = call_function[target=operator.ge](args = (%item_1, 0), kwargs = {})
    %_assert_scalar_default_1 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_1, Runtime assertion failed for expression u1 >= 0 on node 'ge_1'), kwargs = {})
    %expand : [num_users=1] = call_function[target=torch.ops.aten.expand.default](args = (%unsqueeze, [-1, %item_1]), kwargs = {})
    %floor_divide : [num_users=1] = call_function[target=torch.ops.aten.floor_divide.default](args = (%select_1, 2), kwargs = {})
    %floor_divide_1 : [num_users=1] = call_function[target=torch.ops.aten.floor_divide.default](args = (%select_2, 2), kwargs = {})
    %item_2 : [num_users=7] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide,), kwargs = {})
    %ge_2 : [num_users=1] = call_function[target=operator.ge](args = (%item_2, 0), kwargs = {})
    %_assert_scalar_default_2 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_2, Runtime assertion failed for expression u2 >= 0 on node 'ge_2'), kwargs = {})
    %add_168 : [num_users=1] = call_function[target=operator.add](args = (1, %item_2), kwargs = {})
    %gt : [num_users=1] = call_function[target=operator.gt](args = (%add_168, 0), kwargs = {})
    %_assert_scalar_default_3 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%gt, Runtime assertion failed for expression 0 < u2 + 1 on node 'gt'), kwargs = {})
    %item_3 : [num_users=7] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide_1,), kwargs = {})
    %ge_3 : [num_users=1] = call_function[target=operator.ge](args = (%item_3, 0), kwargs = {})
    %_assert_scalar_default_4 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_3, Runtime assertion failed for expression u3 >= 0 on node 'ge_3'), kwargs = {})
    %add_169 : [num_users=1] = call_function[target=operator.add](args = (1, %item_3), kwargs = {})
    %gt_1 : [num_users=1] = call_function[target=operator.gt](args = (%add_169, 0), kwargs = {})
    %_assert_scalar_default_5 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%gt_1, Runtime assertion failed for expression 0 < u3 + 1 on node 'gt_1'), kwargs = {})
    %mul_254 : [num_users=2] = call_function[target=operator.mul](args = (%item, %item_1), kwargs = {})
    %mul_255 : [num_users=1] = call_function[target=operator.mul](args = (4, %item_2), kwargs = {})
    %mul_256 : [num_users=1] = call_function[target=operator.mul](args = (%mul_255, %item_3), kwargs = {})
    %eq_2 : [num_users=1] = call_function[target=operator.eq](args = (%mul_254, %mul_256), kwargs = {})
    %_assert_scalar_default_6 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_2, Runtime assertion failed for expression Eq(u0*u1, 4*u2*u3) on node 'eq_2'), kwargs = {})
    %reshape : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%expand, [%item_2, 2, %item_3, 2]), kwargs = {})
    %permute : [num_users=1] = call_function[target=torch.ops.aten.permute.default](args = (%reshape, [0, 2, 1, 3]), kwargs = {})
    %flatten : [num_users=1] = call_function[target=torch.ops.aten.flatten.using_ints](args = (%permute,), kwargs = {})
    %arange_1 : [num_users=1] = call_function[target=torch.ops.aten.arange.default](args = (%item_1,), kwargs = {device: cpu, pin_memory: False})
    %unsqueeze_1 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%arange_1, 0), kwargs = {})
    %expand_1 : [num_users=1] = call_function[target=torch.ops.aten.expand.default](args = (%unsqueeze_1, [%item, -1]), kwargs = {})
    %floor_divide_2 : [num_users=1] = call_function[target=torch.ops.aten.floor_divide.default](args = (%select_1, 2), kwargs = {})
    %floor_divide_3 : [num_users=1] = call_function[target=torch.ops.aten.floor_divide.default](args = (%select_2, 2), kwargs = {})
    %item_6 : [num_users=5] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide_2,), kwargs = {})
    %ge_4 : [num_users=1] = call_function[target=operator.ge](args = (%item_6, 0), kwargs = {})
    %_assert_scalar_default_7 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_4, Runtime assertion failed for expression u4 >= 0 on node 'ge_4'), kwargs = {})
    %add_170 : [num_users=1] = call_function[target=operator.add](args = (1, %item_6), kwargs = {})
    %gt_2 : [num_users=1] = call_function[target=operator.gt](args = (%add_170, 0), kwargs = {})
    %_assert_scalar_default_8 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%gt_2, Runtime assertion failed for expression 0 < u4 + 1 on node 'gt_2'), kwargs = {})
    %item_7 : [num_users=5] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide_3,), kwargs = {})
    %ge_5 : [num_users=1] = call_function[target=operator.ge](args = (%item_7, 0), kwargs = {})
    %_assert_scalar_default_9 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_5, Runtime assertion failed for expression u5 >= 0 on node 'ge_5'), kwargs = {})
    %add_171 : [num_users=1] = call_function[target=operator.add](args = (1, %item_7), kwargs = {})
    %gt_3 : [num_users=1] = call_function[target=operator.gt](args = (%add_171, 0), kwargs = {})
    %_assert_scalar_default_10 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%gt_3, Runtime assertion failed for expression 0 < u5 + 1 on node 'gt_3'), kwargs = {})
    %mul_257 : [num_users=1] = call_function[target=operator.mul](args = (4, %item_6), kwargs = {})
    %mul_258 : [num_users=1] = call_function[target=operator.mul](args = (%mul_257, %item_7), kwargs = {})
    %eq_3 : [num_users=1] = call_function[target=operator.eq](args = (%mul_254, %mul_258), kwargs = {})
    %_assert_scalar_default_11 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_3, Runtime assertion failed for expression Eq(u0*u1, 4*u4*u5) on node 'eq_3'), kwargs = {})
    %mul_259 : [num_users=1] = call_function[target=operator.mul](args = (%item_6, %item_7), kwargs = {})
    %mul_260 : [num_users=1] = call_function[target=operator.mul](args = (%item_2, %item_3), kwargs = {})
    %eq_4 : [num_users=1] = call_function[target=operator.eq](args = (%mul_259, %mul_260), kwargs = {})
    %_assert_scalar_default_12 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_4, Runtime assertion failed for expression Eq(u4*u5, u2*u3) on node 'eq_4'), kwargs = {})
    %reshape_1 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%expand_1, [%item_6, 2, %item_7, 2]), kwargs = {})
    %permute_1 : [num_users=1] = call_function[target=torch.ops.aten.permute.default](args = (%reshape_1, [0, 2, 1, 3]), kwargs = {})
    %flatten_1 : [num_users=1] = call_function[target=torch.ops.aten.flatten.using_ints](args = (%permute_1,), kwargs = {})
    %stack : [num_users=1] = call_function[target=torch.ops.aten.stack.default](args = ([%flatten, %flatten_1], -1), kwargs = {})
    %item_8 : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%select,), kwargs = {})
    %ge_6 : [num_users=1] = call_function[target=operator.ge](args = (%item_8, 0), kwargs = {})
    %_assert_scalar_default_13 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_6, Runtime assertion failed for expression u6 >= 0 on node 'ge_6'), kwargs = {})
    %mul_261 : [num_users=1] = call_function[target=operator.mul](args = (160, %item_2), kwargs = {})
    %mul_262 : [num_users=1] = call_function[target=operator.mul](args = (%mul_261, %item_3), kwargs = {})
    %mul_263 : [num_users=1] = call_function[target=operator.mul](args = (%mul_262, %item_8), kwargs = {})
    %floordiv_2 : [num_users=6] = call_function[target=operator.floordiv](args = (%sym_size_int_4, 4), kwargs = {})
    %mul_264 : [num_users=1] = call_function[target=operator.mul](args = (4, %floordiv_2), kwargs = {})
    %mod : [num_users=1] = call_function[target=operator.mod](args = (%mul_263, %mul_264), kwargs = {})
    %eq_5 : [num_users=1] = call_function[target=operator.eq](args = (%mod, 0), kwargs = {})
    %_assert_scalar_default_14 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_5, Runtime assertion failed for expression Eq(Mod(160*u2*u3*u6, 4*((s47//4))), 0) on node 'eq_5'), kwargs = {})
    %mul_265 : [num_users=1] = call_function[target=operator.mul](args = (40, %item_2), kwargs = {})
    %mul_266 : [num_users=1] = call_function[target=operator.mul](args = (%mul_265, %item_3), kwargs = {})
    %mul_267 : [num_users=2] = call_function[target=operator.mul](args = (%mul_266, %item_8), kwargs = {})
    %floordiv_3 : [num_users=3] = call_function[target=operator.floordiv](args = (%mul_267, %floordiv_2), kwargs = {})
    %ge_7 : [num_users=1] = call_function[target=operator.ge](args = (%floordiv_3, 0), kwargs = {})
    %_assert_scalar_default_15 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_7, Runtime assertion failed for expression 0 <= (((40*u2*u3*u6)//((s47//4)))) on node 'ge_7'), kwargs = {})
    %mul_268 : [num_users=1] = call_function[target=operator.mul](args = (%floordiv_2, %floordiv_3), kwargs = {})
    %eq_6 : [num_users=1] = call_function[target=operator.eq](args = (%mul_267, %mul_268), kwargs = {})
    %_assert_scalar_default_16 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_6, Runtime assertion failed for expression Eq(40*u2*u3*u6, ((s47//4))*(((40*u2*u3*u6)//((s47//4))))) on node 'eq_6'), kwargs = {})
    %repeat : [num_users=1] = call_function[target=torch.ops.aten.repeat.default](args = (%stack, [%item_8, 1]), kwargs = {})
    %cat : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%repeat],), kwargs = {})
    %slice_1 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%grid_thw, 1, 1, 9223372036854775807), kwargs = {})
    %max_1 : [num_users=1] = call_function[target=torch.ops.aten.max.default](args = (%slice_1,), kwargs = {})
    %item_9 : [num_users=2] = call_function[target=torch.ops.aten.item.default](args = (%max_1,), kwargs = {})
    %ge_8 : [num_users=1] = call_function[target=operator.ge](args = (%item_9, 0), kwargs = {})
    %_assert_scalar_default_17 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_8, Runtime assertion failed for expression u7 >= 0 on node 'ge_8'), kwargs = {})
    %arange_2 : [num_users=1] = call_function[target=torch.ops.aten.arange.default](args = (%item_9,), kwargs = {dtype: torch.float32, device: cpu, pin_memory: False})
    %outer : [num_users=1] = call_function[target=torch.ops.aten.outer.default](args = (%arange_2, %b_rotary_pos_emb_inv_freq), kwargs = {})
    %index : [num_users=1] = call_function[target=torch.ops.aten.index.Tensor](args = (%outer, [%cat]), kwargs = {})
    %flatten_2 : [num_users=1] = call_function[target=torch.ops.aten.flatten.using_ints](args = (%index, 1), kwargs = {})
    %lift_fresh_copy : [num_users=1] = call_function[target=torch.ops.aten.lift_fresh_copy.default](args = (%c_lifted_tensor_0,), kwargs = {})
    %detach_ : [num_users=2] = call_function[target=torch.ops.aten.detach_.default](args = (%lift_fresh_copy,), kwargs = {})
    %unbind_1 : [num_users=1] = call_function[target=torch.ops.aten.unbind.int](args = (%grid_thw,), kwargs = {})
    %getitem_1 : [num_users=3] = call_function[target=operator.getitem](args = (%unbind_1, 0), kwargs = {})
    %select_3 : [num_users=3] = call_function[target=torch.ops.aten.select.int](args = (%getitem_1, 0, 0), kwargs = {})
    %select_4 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%getitem_1, 0, 1), kwargs = {})
    %select_5 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%getitem_1, 0, 2), kwargs = {})
    %floor_divide_4 : [num_users=5] = call_function[target=torch.ops.aten.floor_divide.default](args = (%select_4, 2), kwargs = {})
    %floor_divide_5 : [num_users=5] = call_function[target=torch.ops.aten.floor_divide.default](args = (%select_5, 2), kwargs = {})
    %mul : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%select_3, %floor_divide_4), kwargs = {})
    %mul_1 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%mul, %floor_divide_5), kwargs = {})
    %item_10 : [num_users=3] = call_function[target=torch.ops.aten.item.default](args = (%mul_1,), kwargs = {})
    %ge_9 : [num_users=1] = call_function[target=operator.ge](args = (%item_10, 0), kwargs = {})
    %_assert_scalar_default_18 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_9, Runtime assertion failed for expression u8 >= 0 on node 'ge_9'), kwargs = {})
    %arange_3 : [num_users=1] = call_function[target=torch.ops.aten.arange.default](args = (%item_10,), kwargs = {device: cpu, pin_memory: False})
    %item_11 : [num_users=9] = call_function[target=torch.ops.aten.item.default](args = (%select_3,), kwargs = {})
    %ge_10 : [num_users=1] = call_function[target=operator.ge](args = (%item_11, 0), kwargs = {})
    %_assert_scalar_default_19 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_10, Runtime assertion failed for expression u9 >= 0 on node 'ge_10'), kwargs = {})
    %item_12 : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide_4,), kwargs = {})
    %ge_11 : [num_users=1] = call_function[target=operator.ge](args = (%item_12, 0), kwargs = {})
    %_assert_scalar_default_20 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_11, Runtime assertion failed for expression u10 >= 0 on node 'ge_11'), kwargs = {})
    %item_13 : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide_5,), kwargs = {})
    %ge_12 : [num_users=1] = call_function[target=operator.ge](args = (%item_13, 0), kwargs = {})
    %_assert_scalar_default_21 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_12, Runtime assertion failed for expression u11 >= 0 on node 'ge_12'), kwargs = {})
    %mul_269 : [num_users=1] = call_function[target=operator.mul](args = (%item_12, %item_13), kwargs = {})
    %mul_270 : [num_users=1] = call_function[target=operator.mul](args = (%mul_269, %item_11), kwargs = {})
    %eq_7 : [num_users=1] = call_function[target=operator.eq](args = (%item_10, %mul_270), kwargs = {})
    %_assert_scalar_default_22 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_7, Runtime assertion failed for expression Eq(u8, u10*u11*u9) on node 'eq_7'), kwargs = {})
    %reshape_2 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%arange_3, [%item_11, %item_12, %item_13]), kwargs = {})
    %remainder : [num_users=1] = call_function[target=torch.ops.aten.remainder.Scalar](args = (%floor_divide_4, 4), kwargs = {})
    %rsub : [num_users=2] = call_function[target=torch.ops.aten.rsub.Scalar](args = (%remainder, 4), kwargs = {})
    %remainder_1 : [num_users=1] = call_function[target=torch.ops.aten.remainder.Scalar](args = (%floor_divide_5, 4), kwargs = {})
    %rsub_1 : [num_users=2] = call_function[target=torch.ops.aten.rsub.Scalar](args = (%remainder_1, 4), kwargs = {})
    %add : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%floor_divide_4, %rsub), kwargs = {})
    %floor_divide_6 : [num_users=2] = call_function[target=torch.ops.aten.floor_divide.default](args = (%add, 4), kwargs = {})
    %add_1 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%floor_divide_5, %rsub_1), kwargs = {})
    %floor_divide_7 : [num_users=2] = call_function[target=torch.ops.aten.floor_divide.default](args = (%add_1, 4), kwargs = {})
    %item_14 : [num_users=2] = call_function[target=torch.ops.aten.item.default](args = (%rsub_1,), kwargs = {})
    %add_172 : [num_users=2] = call_function[target=operator.add](args = (%item_13, %item_14), kwargs = {})
    %ge_13 : [num_users=1] = call_function[target=operator.ge](args = (%add_172, 0), kwargs = {})
    %_assert_scalar_default_23 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_13, Runtime assertion failed for expression 0 <= u11 + u12 on node 'ge_13'), kwargs = {})
    %item_15 : [num_users=2] = call_function[target=torch.ops.aten.item.default](args = (%rsub,), kwargs = {})
    %add_173 : [num_users=2] = call_function[target=operator.add](args = (%item_12, %item_15), kwargs = {})
    %ge_14 : [num_users=1] = call_function[target=operator.ge](args = (%add_173, 0), kwargs = {})
    %_assert_scalar_default_24 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_14, Runtime assertion failed for expression 0 <= u10 + u13 on node 'ge_14'), kwargs = {})
    %pad : [num_users=1] = call_function[target=torch.ops.aten.pad.default](args = (%reshape_2, [0, %item_14, 0, %item_15], constant, -100.0), kwargs = {})
    %item_17 : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide_6,), kwargs = {})
    %ge_15 : [num_users=1] = call_function[target=operator.ge](args = (%item_17, 0), kwargs = {})
    %_assert_scalar_default_25 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_15, Runtime assertion failed for expression u14 >= 0 on node 'ge_15'), kwargs = {})
    %item_18 : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%floor_divide_7,), kwargs = {})
    %ge_16 : [num_users=1] = call_function[target=operator.ge](args = (%item_18, 0), kwargs = {})
    %_assert_scalar_default_26 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_16, Runtime assertion failed for expression u15 >= 0 on node 'ge_16'), kwargs = {})
    %mul_271 : [num_users=1] = call_function[target=operator.mul](args = (%item_11, %add_173), kwargs = {})
    %mul_272 : [num_users=1] = call_function[target=operator.mul](args = (%mul_271, %add_172), kwargs = {})
    %mul_273 : [num_users=1] = call_function[target=operator.mul](args = (16, %item_17), kwargs = {})
    %mul_274 : [num_users=1] = call_function[target=operator.mul](args = (%mul_273, %item_18), kwargs = {})
    %mul_275 : [num_users=1] = call_function[target=operator.mul](args = (%mul_274, %item_11), kwargs = {})
    %eq_8 : [num_users=1] = call_function[target=operator.eq](args = (%mul_272, %mul_275), kwargs = {})
    %_assert_scalar_default_27 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_8, Runtime assertion failed for expression Eq(u9*(u10 + u13)*(u11 + u12), 16*u14*u15*u9) on node 'eq_8'), kwargs = {})
    %reshape_3 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%pad, [%item_11, %item_17, 4, %item_18, 4]), kwargs = {})
    %permute_2 : [num_users=1] = call_function[target=torch.ops.aten.permute.default](args = (%reshape_3, [0, 1, 3, 2, 4]), kwargs = {})
    %mul_2 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%floor_divide_6, %floor_divide_7), kwargs = {})
    %item_20 : [num_users=4] = call_function[target=torch.ops.aten.item.default](args = (%mul_2,), kwargs = {})
    %ge_17 : [num_users=1] = call_function[target=operator.ge](args = (%item_20, 0), kwargs = {})
    %_assert_scalar_default_28 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_17, Runtime assertion failed for expression u16 >= 0 on node 'ge_17'), kwargs = {})
    %add_174 : [num_users=1] = call_function[target=operator.add](args = (1, %item_20), kwargs = {})
    %gt_4 : [num_users=1] = call_function[target=operator.gt](args = (%add_174, 0), kwargs = {})
    %_assert_scalar_default_29 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%gt_4, Runtime assertion failed for expression 0 < u16 + 1 on node 'gt_4'), kwargs = {})
    %mul_276 : [num_users=1] = call_function[target=operator.mul](args = (%item_17, %item_18), kwargs = {})
    %mul_277 : [num_users=1] = call_function[target=operator.mul](args = (%mul_276, %item_11), kwargs = {})
    %mul_278 : [num_users=1] = call_function[target=operator.mul](args = (%item_20, %item_11), kwargs = {})
    %eq_9 : [num_users=1] = call_function[target=operator.eq](args = (%mul_277, %mul_278), kwargs = {})
    %_assert_scalar_default_30 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_9, Runtime assertion failed for expression Eq(u14*u15*u9, u16*u9) on node 'eq_9'), kwargs = {})
    %reshape_4 : [num_users=2] = call_function[target=torch.ops.aten.reshape.default](args = (%permute_2, [%item_11, %item_20, 4, 4]), kwargs = {})
    %ne : [num_users=1] = call_function[target=torch.ops.aten.ne.Scalar](args = (%reshape_4, -100), kwargs = {})
    %sum_1 : [num_users=1] = call_function[target=torch.ops.aten.sum.dim_IntList](args = (%ne, [2, 3]), kwargs = {})
    %reshape_5 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%sum_1, [-1]), kwargs = {})
    %reshape_6 : [num_users=2] = call_function[target=torch.ops.aten.reshape.default](args = (%reshape_4, [-1]), kwargs = {})
    %ne_1 : [num_users=1] = call_function[target=torch.ops.aten.ne.Scalar](args = (%reshape_6, -100), kwargs = {})
    %index_1 : [num_users=2] = call_function[target=torch.ops.aten.index.Tensor](args = (%reshape_6, [%ne_1]), kwargs = {})
    %sym_size_int_6 : [num_users=4] = call_function[target=torch.ops.aten.sym_size.int](args = (%index_1, 0), kwargs = {})
    %sym_constrain_range_for_size_default : [num_users=0] = call_function[target=torch.ops.aten.sym_constrain_range_for_size.default](args = (%sym_size_int_6,), kwargs = {})
    %ge_18 : [num_users=1] = call_function[target=operator.ge](args = (%sym_size_int_6, 0), kwargs = {})
    %_assert_scalar_default_31 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_18, Runtime assertion failed for expression u17 >= 0 on node 'ge_18'), kwargs = {})
    %floordiv_4 : [num_users=1] = call_function[target=operator.floordiv](args = (%sym_size_int_4, %floordiv_2), kwargs = {})
    %mul_279 : [num_users=1] = call_function[target=operator.mul](args = (1280, %sym_size_int_6), kwargs = {})
    %mul_280 : [num_users=3] = call_function[target=operator.mul](args = (%mul_279, %floordiv_4), kwargs = {})
    %mod_1 : [num_users=1] = call_function[target=operator.mod](args = (%mul_280, %sym_size_int_4), kwargs = {})
    %eq_10 : [num_users=1] = call_function[target=operator.eq](args = (%mod_1, 0), kwargs = {})
    %_assert_scalar_default_32 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_10, Runtime assertion failed for expression Eq(PythonMod(1280*u17*((s47//((s47//4)))), s47), 0) on node 'eq_10'), kwargs = {})
    %floordiv_5 : [num_users=3] = call_function[target=operator.floordiv](args = (%mul_280, %sym_size_int_4), kwargs = {})
    %ge_19 : [num_users=1] = call_function[target=operator.ge](args = (%floordiv_5, 0), kwargs = {})
    %_assert_scalar_default_33 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_19, Runtime assertion failed for expression 0 <= (((1280*u17*((s47//((s47//4)))))//s47)) on node 'ge_19'), kwargs = {})
    %mul_281 : [num_users=1] = call_function[target=operator.mul](args = (%sym_size_int_4, %floordiv_5), kwargs = {})
    %eq_11 : [num_users=1] = call_function[target=operator.eq](args = (%mul_280, %mul_281), kwargs = {})
    %_assert_scalar_default_34 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_11, Runtime assertion failed for expression Eq(1280*u17*((s47//((s47//4)))), s47*(((1280*u17*((s47//((s47//4)))))//s47))) on node 'eq_11'), kwargs = {})
    %mul_282 : [num_users=1] = call_function[target=operator.mul](args = (4, %sym_size_int_6), kwargs = {})
    %mul_283 : [num_users=3] = call_function[target=operator.mul](args = (%mul_282, %floordiv_3), kwargs = {})
    %mod_2 : [num_users=1] = call_function[target=operator.mod](args = (%mul_283, %sym_size_int_4), kwargs = {})
    %eq_12 : [num_users=1] = call_function[target=operator.eq](args = (%mod_2, 0), kwargs = {})
    %_assert_scalar_default_35 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_12, Runtime assertion failed for expression Eq(PythonMod(4*u17*(((40*u2*u3*u6)//((s47//4)))), s47), 0) on node 'eq_12'), kwargs = {})
    %floordiv_6 : [num_users=3] = call_function[target=operator.floordiv](args = (%mul_283, %sym_size_int_4), kwargs = {})
    %ge_20 : [num_users=1] = call_function[target=operator.ge](args = (%floordiv_6, 0), kwargs = {})
    %_assert_scalar_default_36 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_20, Runtime assertion failed for expression 0 <= (((4*u17*(((40*u2*u3*u6)//((s47//4)))))//s47)) on node 'ge_20'), kwargs = {})
    %mul_284 : [num_users=1] = call_function[target=operator.mul](args = (%sym_size_int_4, %floordiv_6), kwargs = {})
    %eq_13 : [num_users=1] = call_function[target=operator.eq](args = (%mul_283, %mul_284), kwargs = {})
    %_assert_scalar_default_37 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_13, Runtime assertion failed for expression Eq(4*u17*(((40*u2*u3*u6)//((s47//4)))), s47*(((4*u17*(((40*u2*u3*u6)//((s47//4)))))//s47))) on node 'eq_13'), kwargs = {})
    %eq_14 : [num_users=1] = call_function[target=operator.eq](args = (%floordiv_5, 1280), kwargs = {})
    %_assert_scalar_default_38 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_14, Runtime assertion failed for expression Eq(((1280*u17*((s47//((s47//4)))))//s47), 1280) on node 'eq_14'), kwargs = {})
    %eq_15 : [num_users=1] = call_function[target=operator.eq](args = (%floordiv_6, 40), kwargs = {})
    %_assert_scalar_default_39 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%eq_15, Runtime assertion failed for expression Eq(((4*u17*(((40*u2*u3*u6)//((s47//4)))))//s47), 40) on node 'eq_15'), kwargs = {})
    %add_2 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%index_1, 0), kwargs = {})
    %cumsum : [num_users=1] = call_function[target=torch.ops.aten.cumsum.default](args = (%reshape_5, 0), kwargs = {})
    %mul_3 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cumsum, 4), kwargs = {})
    %slice_2 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%detach_, 0, -1, 9223372036854775807), kwargs = {})
    %add_3 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_3, %slice_2), kwargs = {})
    %mul_4 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%select_3, %floor_divide_4), kwargs = {})
    %mul_5 : [num_users=0] = call_function[target=torch.ops.aten.mul.Tensor](args = (%mul_4, %floor_divide_5), kwargs = {})
    %cat_1 : [num_users=2] = call_function[target=torch.ops.aten.cat.default](args = ([%add_2],), kwargs = {})
    %cat_2 : [num_users=2] = call_function[target=torch.ops.aten.cat.default](args = ([%detach_, %add_3],), kwargs = {})
    %_assert_tensor_metadata_default_1 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%cat_2,), kwargs = {dtype: torch.int64, device: cpu, layout: torch.strided})
    %to_1 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype_layout](args = (%cat_2,), kwargs = {dtype: torch.int64, layout: torch.strided, device: cpu})
    %_assert_tensor_metadata_default_2 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%to_1,), kwargs = {dtype: torch.int64, device: cpu, layout: torch.strided})
    %to_2 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%to_1, torch.int64), kwargs = {})
    %unique_consecutive : [num_users=3] = call_function[target=torch.ops.aten.unique_consecutive.default](args = (%to_2,), kwargs = {})
    %getitem_5 : [num_users=25] = call_function[target=operator.getitem](args = (%unique_consecutive, 0), kwargs = {})
    %sym_size_int_7 : [num_users=2] = call_function[target=torch.ops.aten.sym_size.int](args = (%getitem_5, 0), kwargs = {})
    %sym_constrain_range_for_size_default_1 : [num_users=0] = call_function[target=torch.ops.aten.sym_constrain_range_for_size.default](args = (%sym_size_int_7,), kwargs = {})
    %ge_21 : [num_users=1] = call_function[target=operator.ge](args = (%sym_size_int_7, 0), kwargs = {})
    %_assert_scalar_default_40 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_21, Runtime assertion failed for expression u19 >= 0 on node 'ge_21'), kwargs = {})
    %getitem_3 : [num_users=0] = call_function[target=operator.getitem](args = (%unique_consecutive, 1), kwargs = {})
    %getitem_4 : [num_users=0] = call_function[target=operator.getitem](args = (%unique_consecutive, 2), kwargs = {})
    %reshape_7 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%view_1, [%floordiv_2, 4, -1]), kwargs = {})
    %slice_3 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%reshape_7, 1, 0, 9223372036854775807), kwargs = {})
    %index_2 : [num_users=1] = call_function[target=torch.ops.aten.index.Tensor](args = (%slice_3, [%cat_1]), kwargs = {})
    %reshape_8 : [num_users=2] = call_function[target=torch.ops.aten.reshape.default](args = (%index_2, [%sym_size_int_4, -1]), kwargs = {})
    %reshape_9 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%flatten_2, [%floordiv_2, 4, -1]), kwargs = {})
    %slice_4 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%reshape_9, 2, 0, 9223372036854775807), kwargs = {})
    %index_3 : [num_users=1] = call_function[target=torch.ops.aten.index.Tensor](args = (%slice_4, [%cat_1]), kwargs = {})
    %reshape_10 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%index_3, [%sym_size_int_4, -1]), kwargs = {})
    %cat_3 : [num_users=2] = call_function[target=torch.ops.aten.cat.default](args = ([%reshape_10, %reshape_10], -1), kwargs = {})
    %cos : [num_users=27] = call_function[target=torch.ops.aten.cos.default](args = (%cat_3,), kwargs = {})
    %sin : [num_users=27] = call_function[target=torch.ops.aten.sin.default](args = (%cat_3,), kwargs = {})
    %select_6 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%grid_thw, 1, 1), kwargs = {})
    %select_7 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%grid_thw, 1, 2), kwargs = {})
    %mul_6 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%select_6, %select_7), kwargs = {})
    %select_8 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%grid_thw, 1, 0), kwargs = {})
    %repeat_interleave : [num_users=2] = call_function[target=torch.ops.aten.repeat_interleave.self_Tensor](args = (%mul_6, %select_8), kwargs = {})
    %sym_size_int_8 : [num_users=2] = call_function[target=torch.ops.aten.sym_size.int](args = (%repeat_interleave, 0), kwargs = {})
    %sym_constrain_range_for_size_default_2 : [num_users=0] = call_function[target=torch.ops.aten.sym_constrain_range_for_size.default](args = (%sym_size_int_8,), kwargs = {})
    %ge_22 : [num_users=1] = call_function[target=operator.ge](args = (%sym_size_int_8, 0), kwargs = {})
    %_assert_scalar_default_41 : [num_users=0] = call_function[target=torch.ops.aten._assert_scalar.default](args = (%ge_22, Runtime assertion failed for expression u20 >= 0 on node 'ge_22'), kwargs = {})
    %cumsum_1 : [num_users=1] = call_function[target=torch.ops.aten.cumsum.default](args = (%repeat_interleave, 0), kwargs = {dtype: torch.int32})
    %pad_1 : [num_users=3] = call_function[target=torch.ops.aten.pad.default](args = (%cumsum_1, [1, 0], constant, 0.0), kwargs = {})
    %_assert_tensor_metadata_default_3 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%reshape_8,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_3 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%reshape_8, torch.float32), kwargs = {})
    %pow_1 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_3, 2), kwargs = {})
    %mean : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_1, [-1], True), kwargs = {})
    %add_5 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean, 1e-06), kwargs = {})
    %rsqrt : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_5,), kwargs = {})
    %mul_7 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_3, %rsqrt), kwargs = {})
    %_assert_tensor_metadata_default_4 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_7,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_4 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_7, torch.float32), kwargs = {})
    %mul_8 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_0_norm1_weight, %to_4), kwargs = {})
    %linear : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_8, %p_blocks_0_attn_qkv_weight, %p_blocks_0_attn_qkv_bias), kwargs = {})
    %reshape_11 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%linear, [%sym_size_int_4, 3, 16, -1]), kwargs = {})
    %permute_3 : [num_users=3] = call_function[target=torch.ops.aten.permute.default](args = (%reshape_11, [1, 0, 2, 3]), kwargs = {})
    %select_9 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_3, 0, 0), kwargs = {})
    %select_10 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_3, 0, 1), kwargs = {})
    %select_11 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%permute_3, 0, 2), kwargs = {})
    %_assert_tensor_metadata_default_5 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_9,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_5 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_9, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_6 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_10,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_6 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_10, torch.float32), kwargs = {})
    %unsqueeze_2 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%cos, -2), kwargs = {})
    %_assert_tensor_metadata_default_7 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_2,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_7 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_2, torch.float32), kwargs = {})
    %unsqueeze_3 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%sin, -2), kwargs = {})
    %_assert_tensor_metadata_default_8 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_3,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_8 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_3, torch.float32), kwargs = {})
    %mul_9 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_5, %to_7), kwargs = {})
    %slice_5 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_5, 2, 0, 40), kwargs = {})
    %slice_6 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_5, 2, 40, 9223372036854775807), kwargs = {})
    %neg : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_6,), kwargs = {})
    %cat_4 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg, %slice_5], -1), kwargs = {})
    %mul_10 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_4, %to_8), kwargs = {})
    %add_6 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_9, %mul_10), kwargs = {})
    %mul_11 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_6, %to_7), kwargs = {})
    %slice_7 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_6, 2, 0, 40), kwargs = {})
    %slice_8 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_6, 2, 40, 9223372036854775807), kwargs = {})
    %neg_1 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_8,), kwargs = {})
    %cat_5 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_1, %slice_7], -1), kwargs = {})
    %mul_12 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_5, %to_8), kwargs = {})
    %add_7 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_11, %mul_12), kwargs = {})
    %_assert_tensor_metadata_default_9 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_6,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_9 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_6, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_10 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_7,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_10 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_7, torch.float32), kwargs = {})
    %transpose : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_9, 0, 1), kwargs = {})
    %unsqueeze_4 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose, 0), kwargs = {})
    %transpose_1 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_10, 0, 1), kwargs = {})
    %unsqueeze_5 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_1, 0), kwargs = {})
    %transpose_2 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%select_11, 0, 1), kwargs = {})
    %unsqueeze_6 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_2, 0), kwargs = {})
    %qwen_sdpa_attention_loopmha : [num_users=1] = call_function[target=torch.ops.onnx_plug.qwen_sdpa_attention_loopmha.default](args = (%unsqueeze_4, %unsqueeze_5, %unsqueeze_6, %getitem_5), kwargs = {})
    %reshape_12 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%qwen_sdpa_attention_loopmha, [%sym_size_int_4, -1]), kwargs = {})
    %linear_1 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%reshape_12, %p_blocks_0_attn_proj_weight, %p_blocks_0_attn_proj_bias), kwargs = {})
    %add_8 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_3, %linear_1), kwargs = {})
    %_assert_tensor_metadata_default_11 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_8,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_11 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_8, torch.float32), kwargs = {})
    %pow_2 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_11, 2), kwargs = {})
    %mean_1 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_2, [-1], True), kwargs = {})
    %add_9 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_1, 1e-06), kwargs = {})
    %rsqrt_1 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_9,), kwargs = {})
    %mul_15 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_11, %rsqrt_1), kwargs = {})
    %_assert_tensor_metadata_default_12 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_15,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_12 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_15, torch.float32), kwargs = {})
    %mul_16 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_0_norm2_weight, %to_12), kwargs = {})
    %linear_2 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_16, %p_blocks_0_mlp_gate_proj_weight, %p_blocks_0_mlp_gate_proj_bias), kwargs = {})
    %silu : [num_users=1] = call_function[target=torch.ops.aten.silu.default](args = (%linear_2,), kwargs = {})
    %linear_3 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_16, %p_blocks_0_mlp_up_proj_weight, %p_blocks_0_mlp_up_proj_bias), kwargs = {})
    %mul_17 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%silu, %linear_3), kwargs = {})
    %linear_4 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_17, %p_blocks_0_mlp_down_proj_weight, %p_blocks_0_mlp_down_proj_bias), kwargs = {})
    %add_10 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_11, %linear_4), kwargs = {})
    %_assert_tensor_metadata_default_13 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_10,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_13 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_10, torch.float32), kwargs = {})
    %pow_3 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_13, 2), kwargs = {})
    %mean_2 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_3, [-1], True), kwargs = {})
    %add_11 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_2, 1e-06), kwargs = {})
    %rsqrt_2 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_11,), kwargs = {})
    %mul_18 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_13, %rsqrt_2), kwargs = {})
    %_assert_tensor_metadata_default_14 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_18,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_14 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_18, torch.float32), kwargs = {})
    %mul_19 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_1_norm1_weight, %to_14), kwargs = {})
    %linear_5 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_19, %p_blocks_1_attn_qkv_weight, %p_blocks_1_attn_qkv_bias), kwargs = {})
    %reshape_13 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%linear_5, [%sym_size_int_4, 3, 16, -1]), kwargs = {})
    %permute_4 : [num_users=3] = call_function[target=torch.ops.aten.permute.default](args = (%reshape_13, [1, 0, 2, 3]), kwargs = {})
    %select_12 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_4, 0, 0), kwargs = {})
    %select_13 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_4, 0, 1), kwargs = {})
    %select_14 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%permute_4, 0, 2), kwargs = {})
    %_assert_tensor_metadata_default_15 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_12,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_15 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_12, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_16 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_13,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_16 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_13, torch.float32), kwargs = {})
    %unsqueeze_7 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%cos, -2), kwargs = {})
    %_assert_tensor_metadata_default_17 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_7,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_17 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_7, torch.float32), kwargs = {})
    %unsqueeze_8 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%sin, -2), kwargs = {})
    %_assert_tensor_metadata_default_18 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_8,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_18 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_8, torch.float32), kwargs = {})
    %mul_20 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_15, %to_17), kwargs = {})
    %slice_9 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_15, 2, 0, 40), kwargs = {})
    %slice_10 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_15, 2, 40, 9223372036854775807), kwargs = {})
    %neg_2 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_10,), kwargs = {})
    %cat_6 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_2, %slice_9], -1), kwargs = {})
    %mul_21 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_6, %to_18), kwargs = {})
    %add_12 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_20, %mul_21), kwargs = {})
    %mul_22 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_16, %to_17), kwargs = {})
    %slice_11 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_16, 2, 0, 40), kwargs = {})
    %slice_12 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_16, 2, 40, 9223372036854775807), kwargs = {})
    %neg_3 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_12,), kwargs = {})
    %cat_7 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_3, %slice_11], -1), kwargs = {})
    %mul_23 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_7, %to_18), kwargs = {})
    %add_13 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_22, %mul_23), kwargs = {})
    %_assert_tensor_metadata_default_19 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_12,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_19 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_12, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_20 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_13,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_20 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_13, torch.float32), kwargs = {})
    %transpose_3 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_19, 0, 1), kwargs = {})
    %unsqueeze_9 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_3, 0), kwargs = {})
    %transpose_4 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_20, 0, 1), kwargs = {})
    %unsqueeze_10 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_4, 0), kwargs = {})
    %transpose_5 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%select_14, 0, 1), kwargs = {})
    %unsqueeze_11 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_5, 0), kwargs = {})
    %qwen_sdpa_attention_loopmha_1 : [num_users=1] = call_function[target=torch.ops.onnx_plug.qwen_sdpa_attention_loopmha.default](args = (%unsqueeze_9, %unsqueeze_10, %unsqueeze_11, %getitem_5), kwargs = {})
    %reshape_14 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%qwen_sdpa_attention_loopmha_1, [%sym_size_int_4, -1]), kwargs = {})
    %linear_6 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%reshape_14, %p_blocks_1_attn_proj_weight, %p_blocks_1_attn_proj_bias), kwargs = {})
    %add_14 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_13, %linear_6), kwargs = {})
    %_assert_tensor_metadata_default_21 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_14,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_21 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_14, torch.float32), kwargs = {})
    %pow_4 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_21, 2), kwargs = {})
    %mean_3 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_4, [-1], True), kwargs = {})
    %add_15 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_3, 1e-06), kwargs = {})
    %rsqrt_3 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_15,), kwargs = {})
    %mul_24 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_21, %rsqrt_3), kwargs = {})
    %_assert_tensor_metadata_default_22 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_24,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_22 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_24, torch.float32), kwargs = {})
    %mul_25 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_1_norm2_weight, %to_22), kwargs = {})
    %linear_7 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_25, %p_blocks_1_mlp_gate_proj_weight, %p_blocks_1_mlp_gate_proj_bias), kwargs = {})
    %silu_1 : [num_users=1] = call_function[target=torch.ops.aten.silu.default](args = (%linear_7,), kwargs = {})
    %linear_8 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_25, %p_blocks_1_mlp_up_proj_weight, %p_blocks_1_mlp_up_proj_bias), kwargs = {})
    %mul_26 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%silu_1, %linear_8), kwargs = {})
    %linear_9 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_26, %p_blocks_1_mlp_down_proj_weight, %p_blocks_1_mlp_down_proj_bias), kwargs = {})
    %add_16 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_21, %linear_9), kwargs = {})
    %_assert_tensor_metadata_default_23 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_16,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_23 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_16, torch.float32), kwargs = {})
    %pow_5 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_23, 2), kwargs = {})
    %mean_4 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_5, [-1], True), kwargs = {})
    %add_17 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_4, 1e-06), kwargs = {})
    %rsqrt_4 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_17,), kwargs = {})
    %mul_27 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_23, %rsqrt_4), kwargs = {})
    %_assert_tensor_metadata_default_24 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_27,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_24 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_27, torch.float32), kwargs = {})
    %mul_28 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_2_norm1_weight, %to_24), kwargs = {})
    %linear_10 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_28, %p_blocks_2_attn_qkv_weight, %p_blocks_2_attn_qkv_bias), kwargs = {})
    %reshape_15 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%linear_10, [%sym_size_int_4, 3, 16, -1]), kwargs = {})
    %permute_5 : [num_users=3] = call_function[target=torch.ops.aten.permute.default](args = (%reshape_15, [1, 0, 2, 3]), kwargs = {})
    %select_15 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_5, 0, 0), kwargs = {})
    %select_16 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_5, 0, 1), kwargs = {})
    %select_17 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%permute_5, 0, 2), kwargs = {})
    %_assert_tensor_metadata_default_25 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_15,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_25 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_15, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_26 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_16,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_26 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_16, torch.float32), kwargs = {})
    %unsqueeze_12 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%cos, -2), kwargs = {})
    %_assert_tensor_metadata_default_27 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_12,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_27 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_12, torch.float32), kwargs = {})
    %unsqueeze_13 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%sin, -2), kwargs = {})
    %_assert_tensor_metadata_default_28 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_13,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_28 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_13, torch.float32), kwargs = {})
    %mul_29 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_25, %to_27), kwargs = {})
    %slice_13 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_25, 2, 0, 40), kwargs = {})
    %slice_14 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_25, 2, 40, 9223372036854775807), kwargs = {})
    %neg_4 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_14,), kwargs = {})
    %cat_8 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_4, %slice_13], -1), kwargs = {})
    %mul_30 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_8, %to_28), kwargs = {})
    %add_18 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_29, %mul_30), kwargs = {})
    %mul_31 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_26, %to_27), kwargs = {})
    %slice_15 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_26, 2, 0, 40), kwargs = {})
    %slice_16 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_26, 2, 40, 9223372036854775807), kwargs = {})
    %neg_5 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_16,), kwargs = {})
    %cat_9 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_5, %slice_15], -1), kwargs = {})
    %mul_32 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_9, %to_28), kwargs = {})
    %add_19 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_31, %mul_32), kwargs = {})
    %_assert_tensor_metadata_default_29 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_18,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_29 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_18, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_30 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_19,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_30 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_19, torch.float32), kwargs = {})
    %transpose_6 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_29, 0, 1), kwargs = {})
    %unsqueeze_14 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_6, 0), kwargs = {})
    %transpose_7 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_30, 0, 1), kwargs = {})
    %unsqueeze_15 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_7, 0), kwargs = {})
    %transpose_8 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%select_17, 0, 1), kwargs = {})
    %unsqueeze_16 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_8, 0), kwargs = {})
    %qwen_sdpa_attention_loopmha_2 : [num_users=1] = call_function[target=torch.ops.onnx_plug.qwen_sdpa_attention_loopmha.default](args = (%unsqueeze_14, %unsqueeze_15, %unsqueeze_16, %getitem_5), kwargs = {})
    %reshape_16 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%qwen_sdpa_attention_loopmha_2, [%sym_size_int_4, -1]), kwargs = {})
    %linear_11 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%reshape_16, %p_blocks_2_attn_proj_weight, %p_blocks_2_attn_proj_bias), kwargs = {})
    %add_20 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_23, %linear_11), kwargs = {})
    %_assert_tensor_metadata_default_31 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_20,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_31 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_20, torch.float32), kwargs = {})
    %pow_6 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_31, 2), kwargs = {})
    %mean_5 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_6, [-1], True), kwargs = {})
    %add_21 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_5, 1e-06), kwargs = {})
    %rsqrt_5 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_21,), kwargs = {})
    %mul_33 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_31, %rsqrt_5), kwargs = {})
    %_assert_tensor_metadata_default_32 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_33,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_32 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_33, torch.float32), kwargs = {})
    %mul_34 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_2_norm2_weight, %to_32), kwargs = {})
    %linear_12 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_34, %p_blocks_2_mlp_gate_proj_weight, %p_blocks_2_mlp_gate_proj_bias), kwargs = {})
    %silu_2 : [num_users=1] = call_function[target=torch.ops.aten.silu.default](args = (%linear_12,), kwargs = {})
    %linear_13 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_34, %p_blocks_2_mlp_up_proj_weight, %p_blocks_2_mlp_up_proj_bias), kwargs = {})
    %mul_35 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%silu_2, %linear_13), kwargs = {})
    %linear_14 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_35, %p_blocks_2_mlp_down_proj_weight, %p_blocks_2_mlp_down_proj_bias), kwargs = {})
    %add_22 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_31, %linear_14), kwargs = {})
    %_assert_tensor_metadata_default_33 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_22,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_33 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_22, torch.float32), kwargs = {})
    %pow_7 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_33, 2), kwargs = {})
    %mean_6 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_7, [-1], True), kwargs = {})
    %add_23 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_6, 1e-06), kwargs = {})
    %rsqrt_6 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_23,), kwargs = {})
    %mul_36 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_33, %rsqrt_6), kwargs = {})
    %_assert_tensor_metadata_default_34 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_36,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_34 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_36, torch.float32), kwargs = {})
    %mul_37 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_3_norm1_weight, %to_34), kwargs = {})
    %linear_15 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_37, %p_blocks_3_attn_qkv_weight, %p_blocks_3_attn_qkv_bias), kwargs = {})
    %reshape_17 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%linear_15, [%sym_size_int_4, 3, 16, -1]), kwargs = {})
    %permute_6 : [num_users=3] = call_function[target=torch.ops.aten.permute.default](args = (%reshape_17, [1, 0, 2, 3]), kwargs = {})
    %select_18 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_6, 0, 0), kwargs = {})
    %select_19 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_6, 0, 1), kwargs = {})
    %select_20 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%permute_6, 0, 2), kwargs = {})
    %_assert_tensor_metadata_default_35 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_18,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_35 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_18, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_36 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_19,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_36 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_19, torch.float32), kwargs = {})
    %unsqueeze_17 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%cos, -2), kwargs = {})
    %_assert_tensor_metadata_default_37 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_17,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_37 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_17, torch.float32), kwargs = {})
    %unsqueeze_18 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%sin, -2), kwargs = {})
    %_assert_tensor_metadata_default_38 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_18,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_38 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_18, torch.float32), kwargs = {})
    %mul_38 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_35, %to_37), kwargs = {})
    %slice_17 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_35, 2, 0, 40), kwargs = {})
    %slice_18 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_35, 2, 40, 9223372036854775807), kwargs = {})
    %neg_6 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_18,), kwargs = {})
    %cat_10 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_6, %slice_17], -1), kwargs = {})
    %mul_39 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_10, %to_38), kwargs = {})
    %add_24 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_38, %mul_39), kwargs = {})
    %mul_40 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_36, %to_37), kwargs = {})
    %slice_19 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_36, 2, 0, 40), kwargs = {})
    %slice_20 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_36, 2, 40, 9223372036854775807), kwargs = {})
    %neg_7 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_20,), kwargs = {})
    %cat_11 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_7, %slice_19], -1), kwargs = {})
    %mul_41 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_11, %to_38), kwargs = {})
    %add_25 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_40, %mul_41), kwargs = {})
    %_assert_tensor_metadata_default_39 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_24,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_39 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_24, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_40 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_25,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_40 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_25, torch.float32), kwargs = {})
    %transpose_9 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_39, 0, 1), kwargs = {})
    %unsqueeze_19 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_9, 0), kwargs = {})
    %transpose_10 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_40, 0, 1), kwargs = {})
    %unsqueeze_20 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_10, 0), kwargs = {})
    %transpose_11 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%select_20, 0, 1), kwargs = {})
    %unsqueeze_21 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_11, 0), kwargs = {})
    %qwen_sdpa_attention_loopmha_3 : [num_users=1] = call_function[target=torch.ops.onnx_plug.qwen_sdpa_attention_loopmha.default](args = (%unsqueeze_19, %unsqueeze_20, %unsqueeze_21, %getitem_5), kwargs = {})
    %reshape_18 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%qwen_sdpa_attention_loopmha_3, [%sym_size_int_4, -1]), kwargs = {})
    %linear_16 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%reshape_18, %p_blocks_3_attn_proj_weight, %p_blocks_3_attn_proj_bias), kwargs = {})
    %add_26 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_33, %linear_16), kwargs = {})
    %_assert_tensor_metadata_default_41 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_26,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_41 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_26, torch.float32), kwargs = {})
    %pow_8 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_41, 2), kwargs = {})
    %mean_7 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_8, [-1], True), kwargs = {})
    %add_27 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_7, 1e-06), kwargs = {})
    %rsqrt_7 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_27,), kwargs = {})
    %mul_42 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_41, %rsqrt_7), kwargs = {})
    %_assert_tensor_metadata_default_42 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_42,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_42 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_42, torch.float32), kwargs = {})
    %mul_43 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_3_norm2_weight, %to_42), kwargs = {})
    %linear_17 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_43, %p_blocks_3_mlp_gate_proj_weight, %p_blocks_3_mlp_gate_proj_bias), kwargs = {})
    %silu_3 : [num_users=1] = call_function[target=torch.ops.aten.silu.default](args = (%linear_17,), kwargs = {})
    %linear_18 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_43, %p_blocks_3_mlp_up_proj_weight, %p_blocks_3_mlp_up_proj_bias), kwargs = {})
    %mul_44 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%silu_3, %linear_18), kwargs = {})
    %linear_19 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_44, %p_blocks_3_mlp_down_proj_weight, %p_blocks_3_mlp_down_proj_bias), kwargs = {})
    %add_28 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_41, %linear_19), kwargs = {})
    %_assert_tensor_metadata_default_43 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_28,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_43 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_28, torch.float32), kwargs = {})
    %pow_9 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_43, 2), kwargs = {})
    %mean_8 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_9, [-1], True), kwargs = {})
    %add_29 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_8, 1e-06), kwargs = {})
    %rsqrt_8 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_29,), kwargs = {})
    %mul_45 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_43, %rsqrt_8), kwargs = {})
    %_assert_tensor_metadata_default_44 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_45,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_44 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_45, torch.float32), kwargs = {})
    %mul_46 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_4_norm1_weight, %to_44), kwargs = {})
    %linear_20 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_46, %p_blocks_4_attn_qkv_weight, %p_blocks_4_attn_qkv_bias), kwargs = {})
    %reshape_19 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%linear_20, [%sym_size_int_4, 3, 16, -1]), kwargs = {})
    %permute_7 : [num_users=3] = call_function[target=torch.ops.aten.permute.default](args = (%reshape_19, [1, 0, 2, 3]), kwargs = {})
    %select_21 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_7, 0, 0), kwargs = {})
    %select_22 : [num_users=2] = call_function[target=torch.ops.aten.select.int](args = (%permute_7, 0, 1), kwargs = {})
    %select_23 : [num_users=1] = call_function[target=torch.ops.aten.select.int](args = (%permute_7, 0, 2), kwargs = {})
    %_assert_tensor_metadata_default_45 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_21,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_45 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_21, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_46 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%select_22,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_46 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%select_22, torch.float32), kwargs = {})
    %unsqueeze_22 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%cos, -2), kwargs = {})
    %_assert_tensor_metadata_default_47 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_22,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_47 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_22, torch.float32), kwargs = {})
    %unsqueeze_23 : [num_users=2] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%sin, -2), kwargs = {})
    %_assert_tensor_metadata_default_48 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%unsqueeze_23,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_48 : [num_users=2] = call_function[target=torch.ops.aten.to.dtype](args = (%unsqueeze_23, torch.float32), kwargs = {})
    %mul_47 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_45, %to_47), kwargs = {})
    %slice_21 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_45, 2, 0, 40), kwargs = {})
    %slice_22 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_45, 2, 40, 9223372036854775807), kwargs = {})
    %neg_8 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_22,), kwargs = {})
    %cat_12 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_8, %slice_21], -1), kwargs = {})
    %mul_48 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_12, %to_48), kwargs = {})
    %add_30 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_47, %mul_48), kwargs = {})
    %mul_49 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_46, %to_47), kwargs = {})
    %slice_23 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_46, 2, 0, 40), kwargs = {})
    %slice_24 : [num_users=1] = call_function[target=torch.ops.aten.slice.Tensor](args = (%to_46, 2, 40, 9223372036854775807), kwargs = {})
    %neg_9 : [num_users=1] = call_function[target=torch.ops.aten.neg.default](args = (%slice_24,), kwargs = {})
    %cat_13 : [num_users=1] = call_function[target=torch.ops.aten.cat.default](args = ([%neg_9, %slice_23], -1), kwargs = {})
    %mul_50 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%cat_13, %to_48), kwargs = {})
    %add_31 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%mul_49, %mul_50), kwargs = {})
    %_assert_tensor_metadata_default_49 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_30,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_49 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_30, torch.float32), kwargs = {})
    %_assert_tensor_metadata_default_50 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_31,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_50 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%add_31, torch.float32), kwargs = {})
    %transpose_12 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_49, 0, 1), kwargs = {})
    %unsqueeze_24 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_12, 0), kwargs = {})
    %transpose_13 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%to_50, 0, 1), kwargs = {})
    %unsqueeze_25 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_13, 0), kwargs = {})
    %transpose_14 : [num_users=1] = call_function[target=torch.ops.aten.transpose.int](args = (%select_23, 0, 1), kwargs = {})
    %unsqueeze_26 : [num_users=1] = call_function[target=torch.ops.aten.unsqueeze.default](args = (%transpose_14, 0), kwargs = {})
    %qwen_sdpa_attention_loopmha_4 : [num_users=1] = call_function[target=torch.ops.onnx_plug.qwen_sdpa_attention_loopmha.default](args = (%unsqueeze_24, %unsqueeze_25, %unsqueeze_26, %getitem_5), kwargs = {})
    %reshape_20 : [num_users=1] = call_function[target=torch.ops.aten.reshape.default](args = (%qwen_sdpa_attention_loopmha_4, [%sym_size_int_4, -1]), kwargs = {})
    %linear_21 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%reshape_20, %p_blocks_4_attn_proj_weight, %p_blocks_4_attn_proj_bias), kwargs = {})
    %add_32 : [num_users=2] = call_function[target=torch.ops.aten.add.Tensor](args = (%to_43, %linear_21), kwargs = {})
    %_assert_tensor_metadata_default_51 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%add_32,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_51 : [num_users=3] = call_function[target=torch.ops.aten.to.dtype](args = (%add_32, torch.float32), kwargs = {})
    %pow_10 : [num_users=1] = call_function[target=torch.ops.aten.pow.Tensor_Scalar](args = (%to_51, 2), kwargs = {})
    %mean_9 : [num_users=1] = call_function[target=torch.ops.aten.mean.dim](args = (%pow_10, [-1], True), kwargs = {})
    %add_33 : [num_users=1] = call_function[target=torch.ops.aten.add.Tensor](args = (%mean_9, 1e-06), kwargs = {})
    %rsqrt_9 : [num_users=1] = call_function[target=torch.ops.aten.rsqrt.default](args = (%add_33,), kwargs = {})
    %mul_51 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%to_51, %rsqrt_9), kwargs = {})
    %_assert_tensor_metadata_default_52 : [num_users=0] = call_function[target=torch.ops.aten._assert_tensor_metadata.default](args = (%mul_51,), kwargs = {dtype: torch.float32, device: cpu, layout: torch.strided})
    %to_52 : [num_users=1] = call_function[target=torch.ops.aten.to.dtype](args = (%mul_51, torch.float32), kwargs = {})
    %mul_52 : [num_users=2] = call_function[target=torch.ops.aten.mul.Tensor](args = (%p_blocks_4_norm2_weight, %to_52), kwargs = {})
    %linear_22 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_52, %p_blocks_4_mlp_gate_proj_weight, %p_blocks_4_mlp_gate_proj_bias), kwargs = {})
    %silu_4 : [num_users=1] = call_function[target=torch.ops.aten.silu.default](args = (%linear_22,), kwargs = {})
    %linear_23 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_52, %p_blocks_4_mlp_up_proj_weight, %p_blocks_4_mlp_up_proj_bias), kwargs = {})
    %mul_53 : [num_users=1] = call_function[target=torch.ops.aten.mul.Tensor](args = (%silu_4, %linear_23), kwargs = {})
    %linear_24 : [num_users=1] = call_function[target=torch.ops.aten.linear.default](args = (%mul_53, %p_blocks_4_mlp_down_proj_weight, %p_blocks_4_mlp_down_proj_bias), kwargs = {})