https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B https://arxiv.org/abs/2510.15227 https://github.com/meituan-longcat/LongCat-AudioDiT 美团的模型,dit架构,类似 f5,速度很快 特点: - 两个版本 3.5b 1b - dit架构,扩散生成,可以实时 - 支持颜色克隆 - 无其他任何附加能力,比如副语言和拼音等等 他们声称跑分sota,但是由于缺少控制手段,情感控制可能弱于 qwen tts 和 indextts 由于是dit,理论上可以很快,并且有希望继续蒸馏,后续社区可能还可以支持inpainting
https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B
https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
https://arxiv.org/abs/2510.15227
https://github.com/meituan-longcat/LongCat-AudioDiT
美团的模型,dit架构,类似 f5,速度很快
特点:
他们声称跑分sota,但是由于缺少控制手段,情感控制可能弱于 qwen tts 和 indextts
由于是dit,理论上可以很快,并且有希望继续蒸馏,后续社区可能还可以支持inpainting