Skip to content

对话声音不连续的音频文件识别出来的时间戳信息不正确 #83

@asdasadaffadfsdf

Description

@asdasadaffadfsdf

以下是我用cpu模型识别出来的结果

Image 发现如果上下文的停顿时间超过几秒就会导致生成的时间戳会从0开始计算。 以下是我用gpu模型识别出来的结果 Image 识别出来text为空和timestamp数组为空 然后我查了funasr的auto_model.py Image Image 大概有这两种情况会导致timestamp为空数组,第一种应该是纯音乐的音频导致,第二种好像是VAD检测到语音片段,但ASR模型没有输出。 有哪位大佬知道咋处理吗。就针对对话不连续的音频识别会有以上问题,但如果是一个对话上下文较连续,没有大停顿的话,还是能识别出来准确的时间戳的

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions