对话声音不连续的音频文件识别出来的时间戳信息不正确

以下是我用cpu模型识别出来的结果

<img width="1257" height="441" alt="Image" src="https://github.com/user-attachments/assets/a848f6cc-25fb-4098-a3ba-3982382d820e" />
发现如果上下文的停顿时间超过几秒就会导致生成的时间戳会从0开始计算。
以下是我用gpu模型识别出来的结果

<img width="1137" height="54" alt="Image" src="https://github.com/user-attachments/assets/ed7dfd21-0cf5-4aa5-a848-6d795d441730" />
识别出来text为空和timestamp数组为空
然后我查了funasr的auto_model.py

<img width="792" height="100" alt="Image" src="https://github.com/user-attachments/assets/22cd3fe8-67e7-4c6f-acc4-6fe216abf5f7" />

<img width="643" height="100" alt="Image" src="https://github.com/user-attachments/assets/af1cd575-4436-48cb-b377-9e10fb5c9a0f" />
大概有这两种情况会导致timestamp为空数组，第一种应该是纯音乐的音频导致，第二种好像是VAD检测到语音片段，但ASR模型没有输出。
有哪位大佬知道咋处理吗。就针对对话不连续的音频识别会有以上问题，但如果是一个对话上下文较连续，没有大停顿的话，还是能识别出来准确的时间戳的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

对话声音不连续的音频文件识别出来的时间戳信息不正确 #83

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

对话声音不连续的音频文件识别出来的时间戳信息不正确 #83

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions