Skip to content

建议优化一下测试用例 #3

@klb3713

Description

@klb3713

恕我直言,从给的例子来看,这个评测和真实agent开发的情况离得太远了
给的例子,大部分更像是在评测『创作』能力,或者更形象点,有的像教小白编程的问题……

agent是应用,agent需要的大模型能力主要是面向开发者的,建议参考openai 11月发布会的新功能,构造更接近真实场景的用例

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions