Skip to content

Support LongCat-AudioDiT #294

@zhzLuke96

Description

@zhzLuke96

https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B
https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
https://arxiv.org/abs/2510.15227
https://github.com/meituan-longcat/LongCat-AudioDiT

美团的模型,dit架构,类似 f5,速度很快

特点:

  • 两个版本 3.5b 1b
  • dit架构,扩散生成,可以实时
  • 支持颜色克隆
  • 无其他任何附加能力,比如副语言和拼音等等

他们声称跑分sota,但是由于缺少控制手段,情感控制可能弱于 qwen tts 和 indextts
由于是dit,理论上可以很快,并且有希望继续蒸馏,后续社区可能还可以支持inpainting

Metadata

Metadata

Assignees

No one assigned

    Labels

    StoryNext iteration summary and TODO list

    Type

    No fields configured for Task.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions