非常感谢作者的工作emotion llama-v2,可以批量化对视频音频文件,进行情感识别和推理。但是有如下两个问题,还有个人一点思考,希望讨论:
问题1:
本人在复现dfew的这个测试集的结果,详见emotion llamav2的baseline:论文中提到的dfew的f1,是70。

我实际在进行复现,使用dfew的set0,结果如下所示,f1值是54。可能是prompt设置,还有文本模态的缘故。
问题2:
问题1和问题2紧密相连,项目inference部分,缺少评估代码:emotion-llama-v2.py。 因为问题1的复现为我自己设计的prompt代码,文本模态信息利用率需要进一步提高。
思考:
可以尝试不用首帧图片,我采样了几十条数据,有时候首帧图片噪声很大,甚至不是video说话主人公,或者只有背景没有人物。 可以使用openface做au峰值监测,可以进一步提高情感识别准确率。
非常感谢作者的工作emotion llama-v2,可以批量化对视频音频文件,进行情感识别和推理。但是有如下两个问题,还有个人一点思考,希望讨论:
问题1:
本人在复现dfew的这个测试集的结果,详见emotion llamav2的baseline:论文中提到的dfew的f1,是70。
问题2:
问题1和问题2紧密相连,项目inference部分,缺少评估代码:emotion-llama-v2.py。 因为问题1的复现为我自己设计的prompt代码,文本模态信息利用率需要进一步提高。
思考:
可以尝试不用首帧图片,我采样了几十条数据,有时候首帧图片噪声很大,甚至不是video说话主人公,或者只有背景没有人物。 可以使用openface做au峰值监测,可以进一步提高情感识别准确率。