Project inference part lacks evaluation code: emotion-llama-v2.py

非常感谢作者的工作emotion llama-v2，可以批量化对视频音频文件，进行情感识别和推理。但是有如下两个问题，还有个人一点思考，希望讨论：

问题1：
本人在复现dfew的这个测试集的结果，详见emotion llamav2的baseline：论文中提到的dfew的f1，是70。

<img width="1188" height="704" alt="Image" src="https://github.com/user-attachments/assets/90e7e887-5969-4ba1-a96d-be88749ccc23" />
我实际在进行复现，使用dfew的set0，结果如下所示，f1值是54。可能是prompt设置，还有文本模态的缘故。

<img width="742" height="298" alt="Image" src="https://github.com/user-attachments/assets/98e5cda1-4278-4f47-b35f-d3f64a209a98" />

问题2：
问题1和问题2紧密相连，项目inference部分，缺少评估代码：emotion-llama-v2.py。  因为问题1的复现为我自己设计的prompt代码，文本模态信息利用率需要进一步提高。

思考：
可以尝试不用首帧图片，我采样了几十条数据，有时候首帧图片噪声很大，甚至不是video说话主人公，或者只有背景没有人物。 可以使用openface做au峰值监测，可以进一步提高情感识别准确率。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Project inference part lacks evaluation code: emotion-llama-v2.py #3

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Project inference part lacks evaluation code: emotion-llama-v2.py #3

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions