[fix][evaluation] target/evaluator err msg conv (#445)

lsy357 · web-flow · commit f27d2fb25fbd · 2026-03-04T17:24:49.000+08:00
* fix(evaluation): idl op_type

* feat(evaluation): target/evaluator record err conv

* fix(evaluation): event lock ttl

* fix(evaluation): errhandler

* fix(evaluation): err msg

* fix(evaluation): ut

* fix(evaluation): ut

* fix(evaluation): ut
diff --git a/backend/modules/evaluation/application/wire_gen.go b/backend/modules/evaluation/application/wire_gen.go
diff --git a/backend/modules/evaluation/domain/service/evaluator_impl.go b/backend/modules/evaluation/domain/service/evaluator_impl.go
@@ -17,6 +17,7 @@ import (
 	"github.com/coze-dev/coze-loop/backend/infra/middleware/session"
 	"github.com/coze-dev/coze-loop/backend/infra/mq"
 	"github.com/coze-dev/coze-loop/backend/modules/evaluation/consts"
+	"github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/component"
 	"github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/component/idem"
 	"github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/entity"
 	"github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/repo"
@@ -43,6 +44,7 @@ func NewEvaluatorServiceImpl(
 	configer conf.IConfiger,
 	evaluatorSourceServices map[entity.EvaluatorType]EvaluatorSourceService,
 	plainRateLimiter repo.IPlainRateLimiter,
+	cConfiger component.IConfiger,
 ) EvaluatorService {
 	onceEvaluatorService.Do(func() {
 		singletonEvaluatorService = &EvaluatorServiceImpl{
@@ -55,6 +57,7 @@ func NewEvaluatorServiceImpl(
 			configer:                configer,
 			evaluatorSourceServices: evaluatorSourceServices,
 			plainRateLimiter:        plainRateLimiter,
+			cConfiger:               cConfiger,
 		}
 	})
 	return singletonEvaluatorService
@@ -71,6 +74,8 @@ type EvaluatorServiceImpl struct {
 	configer                conf.IConfiger
 	evaluatorSourceServices map[entity.EvaluatorType]EvaluatorSourceService
 	plainRateLimiter        repo.IPlainRateLimiter
+
+	cConfiger component.IConfiger
 }
 
 // ListEvaluator 按查询条件查询 evaluator_version
@@ -684,6 +689,12 @@ func (e *EvaluatorServiceImpl) RunEvaluator(ctx context.Context, request *entity
 			},
 		},
 	}
+	if recordDO.EvaluatorOutputData != nil &&
+		recordDO.EvaluatorOutputData.EvaluatorRunError != nil &&
+		recordDO.EvaluatorOutputData.EvaluatorRunError.Code != int32(errno.CustomRPCEvaluatorRunFailedCode) &&
+		len(recordDO.EvaluatorOutputData.EvaluatorRunError.Message) > 0 {
+		recordDO.EvaluatorOutputData.EvaluatorRunError.Message = e.cConfiger.GetErrCtrl(ctx).ConvertErrMsg(recordDO.EvaluatorOutputData.EvaluatorRunError.Message)
+	}
 	err = e.evaluatorRecordRepo.CreateEvaluatorRecord(ctx, recordDO)
 	if err != nil {
 		return nil, err
diff --git a/backend/modules/evaluation/domain/service/evaluator_impl_test.go b/backend/modules/evaluation/domain/service/evaluator_impl_test.go
@@ -18,6 +18,7 @@ import (
 	mqmocks "github.com/coze-dev/coze-loop/backend/infra/mq/mocks"
 	"github.com/coze-dev/coze-loop/backend/modules/evaluation/consts"
 	idemmocks "github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/component/idem/mocks"
+	componentMocks "github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/component/mocks"
 	"github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/entity"
 	"github.com/coze-dev/coze-loop/backend/modules/evaluation/domain/service/mocks"
 
@@ -42,8 +43,8 @@ func TestNewEvaluatorServiceImpl(t *testing.T) {
 	mockConfiger := confmocks.NewMockIConfiger(ctrl)
 	mockSourceService := mocks.NewMockEvaluatorSourceService(ctrl)
 	mockPlainLimiter := repomocks.NewMockIPlainRateLimiter(ctrl)
+	mockErrConfiger := componentMocks.NewMockIConfiger(ctrl)
 
-	// 这里需要传递一个 EvaluatorSourceService 的 slice
 	service := NewEvaluatorServiceImpl(
 		mockIdgen,
 		mockLimiter,
@@ -56,6 +57,7 @@ func TestNewEvaluatorServiceImpl(t *testing.T) {
 			entity.EvaluatorTypePrompt: mockSourceService,
 		},
 		mockPlainLimiter,
+		mockErrConfiger,
 	)
 
 	assert.IsType(t, &EvaluatorServiceImpl{}, service)
diff --git a/backend/modules/evaluation/domain/service/expt_result_impl.go b/backend/modules/evaluation/domain/service/expt_result_impl.go
@@ -1817,10 +1817,6 @@ func (e *ExptResultBuilder) getTurnTargetOutput(ctx context.Context, itemID, tur
 		return &entity.TurnTargetOutput{}
 	}
 
-	if turnTargetOutput.EvalTargetRecord != nil && turnTargetOutput.EvalTargetRecord.EvalTargetOutputData != nil && turnTargetOutput.EvalTargetRecord.EvalTargetOutputData.EvalTargetRunError != nil {
-		turnTargetOutput.EvalTargetRecord.EvalTargetOutputData.EvalTargetRunError.Message = errno.ServiceInternalErrMsg
-	}
-
 	return turnTargetOutput
 }
 
diff --git a/backend/modules/evaluation/domain/service/expt_run_item_event_impl.go b/backend/modules/evaluation/domain/service/expt_run_item_event_impl.go
@@ -207,7 +207,7 @@ func (e *ExptItemEventEvalServiceImpl) HandleEventErr(next RecordEvalEndPoint) R
 func (e *ExptItemEventEvalServiceImpl) HandleEventLock(next RecordEvalEndPoint) RecordEvalEndPoint {
 	return func(ctx context.Context, event *entity.ExptItemEvalEvent) error {
 		lockKey := fmt.Sprintf("expt_item_eval_run_lock:%d:%d", event.ExptID, event.EvalSetItemID)
-		locked, ctx, cancel, err := e.mutex.LockWithRenew(ctx, lockKey, time.Second*10, time.Second*60*60)
+		locked, ctx, cancel, err := e.mutex.LockWithRenew(ctx, lockKey, time.Second*5, time.Second*60*60)
 		if err != nil {
 			return err
 		}
diff --git a/backend/modules/evaluation/domain/service/expt_run_item_impl.go b/backend/modules/evaluation/domain/service/expt_run_item_impl.go
@@ -169,14 +169,13 @@ func (e *ExptItemEvalCtxExecutor) storeTurnRunResult(ctx context.Context, etec *
 	}
 
 	if evalErr != nil {
-		var rawErrMsg string
+		var errMsg string
 		if se, ok := errorx.FromStatusError(evalErr); ok && (se.Code() == errno.CustomEvalTargetInvokeFailCode || se.Code() == errno.CustomRPCEvaluatorRunFailedCode) {
-			rawErrMsg = errorx.ErrorWithoutStack(evalErr)
+			errMsg = errorx.ErrorWithoutStack(evalErr)
 		} else {
-			rawErrMsg = evalErr.Error()
+			errMsg = e.Configer.GetErrCtrl(ctx).ConvertErrMsg(evalErr.Error())
 		}
 
-		errMsg := e.Configer.GetErrCtrl(ctx).ConvertErrMsg(rawErrMsg)
 		logs.CtxWarn(ctx, "[ExptTurnEval] store turn run err, before: %v, after: %v", evalErr, errMsg)
 
 		ei, ok := errno.ParseErrImpl(evalErr)
diff --git a/backend/modules/evaluation/domain/service/expt_run_scheduler_event_impl.go b/backend/modules/evaluation/domain/service/expt_run_scheduler_event_impl.go
@@ -163,7 +163,7 @@ func (e *ExptSchedulerImpl) makeExptRunExecLockKey(exptID, exptRunID int64) stri
 func (e *ExptSchedulerImpl) HandleEventLock(next SchedulerEndPoint) SchedulerEndPoint {
 	return func(ctx context.Context, event *entity.ExptScheduleEvent) error {
 		key := e.makeExptRunExecLockKey(event.ExptID, event.ExptRunID)
-		locked, ctx, cancel, err := e.Mutex.LockWithRenew(ctx, key, time.Second*10, time.Second*60*5)
+		locked, ctx, cancel, err := e.Mutex.LockWithRenew(ctx, key, time.Second*5, time.Second*60*5)
 		if err != nil {
 			return err
 		}
diff --git a/backend/modules/evaluation/domain/service/target_impl.go b/backend/modules/evaluation/domain/service/target_impl.go
@@ -246,7 +246,7 @@ func (e *EvalTargetServiceImpl) ExecuteTarget(ctx context.Context, spaceID, targ
 			if ok {
 				outputData.EvalTargetRunError = &entity.EvalTargetRunError{
 					Code:    statusErr.Code(),
-					Message: statusErr.Error(),
+					Message: errorx.ErrorWithoutStack(err),
 				}
 				spanParam.ErrCode = strconv.FormatInt(int64(statusErr.Code()), 10)
 			} else {
@@ -323,6 +323,7 @@ func (e *EvalTargetServiceImpl) ExecuteTarget(ctx context.Context, spaceID, targ
 				UpdatedAt: gptr.Of(time.Now().UnixMilli()),
 			},
 		}
+		e.convEvalTargetRunErr(ctx, record)
 
 		_, errCreate := e.evalTargetRepo.CreateEvalTargetRecord(ctx, record)
 		if errCreate != nil {
@@ -548,13 +549,27 @@ func (e *EvalTargetServiceImpl) DebugTarget(ctx context.Context, param *entity.D
 			UpdatedAt: gptr.Of(time.Now().UnixMilli()),
 		},
 	}
+	e.convEvalTargetRunErr(ctx, record)
+
 	if _, err := e.evalTargetRepo.CreateEvalTargetRecord(ctx, record); err != nil {
 		return nil, err
 	}
 
 	return record, nil
 }
 
+func (e *EvalTargetServiceImpl) convEvalTargetRunErr(ctx context.Context, record *entity.EvalTargetRecord) {
+	if record == nil || record.EvalTargetOutputData == nil || record.EvalTargetOutputData.EvalTargetRunError == nil {
+		return
+	}
+	if record.EvalTargetOutputData.EvalTargetRunError.Code == int32(errno.CustomEvalTargetInvokeFailCode) {
+		return
+	}
+	if len(record.EvalTargetOutputData.EvalTargetRunError.Message) > 0 {
+		record.EvalTargetOutputData.EvalTargetRunError.Message = e.configer.GetErrCtrl(ctx).ConvertErrMsg(record.EvalTargetOutputData.EvalTargetRunError.Message)
+	}
+}
+
 func (e *EvalTargetServiceImpl) AsyncDebugTarget(ctx context.Context, param *entity.DebugTargetParam) (record *entity.EvalTargetRecord, callee string, err error) {
 	return e.asyncExecuteTarget(ctx, param.SpaceID, param.PatchyTarget, &entity.ExecuteTargetCtx{}, param.InputData)
 }
@@ -592,6 +607,8 @@ func (e *EvalTargetServiceImpl) ReportInvokeRecords(ctx context.Context, param *
 
 	record.EvalTargetOutputData = param.OutputData
 	record.Status = gptr.Of(param.Status)
+	e.convEvalTargetRunErr(ctx, record)
+
 	if err := e.evalTargetRepo.SaveEvalTargetRecord(ctx, record); err != nil {
 		return err
 	}
diff --git a/backend/modules/evaluation/domain/service/target_impl_test.go b/backend/modules/evaluation/domain/service/target_impl_test.go
@@ -521,6 +521,8 @@ func TestEvalTargetServiceImpl_ExecuteTarget(t *testing.T) {
 			deps.metric.EXPECT().EmitRun(evalTarget.SpaceID, gomock.Any(), gomock.Any()).Times(1)
 			// default trajectory conf, not used in these cases (target type does not support trajectory)
 			deps.configer.EXPECT().GetTargetTrajectoryConf(gomock.Any()).AnyTimes().Return(&entity.TargetTrajectoryConf{})
+			// convEvalTargetRunErr (in ExecuteTarget defer) may call GetErrCtrl when record has EvalTargetRunError
+			deps.configer.EXPECT().GetErrCtrl(gomock.Any()).AnyTimes().Return(entity.DefaultExptErrCtrl())
 			deps.idgen.EXPECT().GenID(ctx).Return(int64(9999), nil)
 
 			var savedRecord *entity.EvalTargetRecord
@@ -775,6 +777,7 @@ func TestEvalTargetServiceImpl_ReportInvokeRecords(t *testing.T) {
 				deps.repo.EXPECT().CreateEvalTargetRecord(gomock.Any(), gomock.Any()).AnyTimes()
 				deps.metric.EXPECT().EmitRun(gomock.Any(), gomock.Any(), gomock.Any()).AnyTimes()
 				deps.configer.EXPECT().GetTargetTrajectoryConf(gomock.Any()).AnyTimes().Return(&entity.TargetTrajectoryConf{})
+				deps.configer.EXPECT().GetErrCtrl(gomock.Any()).AnyTimes().Return(entity.DefaultExptErrCtrl())
 
 				param.Session = &entity.Session{UserID: "user"}
 				param.OutputData = &entity.EvalTargetOutputData{
@@ -934,6 +937,8 @@ func TestEvalTargetServiceImpl_ReportInvokeRecords_Trajectory(t *testing.T) {
 
 			// main flow expectations (same as success case)
 			deps.repo.EXPECT().GetEvalTargetRecordByIDAndSpaceID(ctx, param.SpaceID, param.RecordID).Return(record, nil)
+			// convEvalTargetRunErr is called before SaveEvalTargetRecord when param.OutputData has EvalTargetRunError with Message
+			deps.configer.EXPECT().GetErrCtrl(gomock.Any()).Return(&entity.ExptErrCtrl{}).AnyTimes()
 			var saved *entity.EvalTargetRecord
 			deps.repo.EXPECT().SaveEvalTargetRecord(gomock.Any(), gomock.Any()).DoAndReturn(func(_ context.Context, rec *entity.EvalTargetRecord) error {
 				saved = rec
@@ -1353,6 +1358,7 @@ func TestEvalTargetServiceImpl_DebugTarget(t *testing.T) {
 			prepare: func(ctx context.Context, deps *evalTargetServiceTestDeps, param *entity.DebugTargetParam) {
 				deps.operator.EXPECT().ValidateInput(ctx, param.SpaceID, param.PatchyTarget.EvalTargetVersion.InputSchema, param.InputData).Return(nil)
 				deps.operator.EXPECT().Execute(ctx, param.SpaceID, gomock.Any()).Return(nil, entity.EvalTargetRunStatusFail, errorx.NewByCode(errno.CommonInternalErrorCode))
+				deps.configer.EXPECT().GetErrCtrl(gomock.Any()).Return(&entity.ExptErrCtrl{}).Times(1)
 				deps.idgen.EXPECT().GenID(ctx).Return(int64(999), nil)
 				deps.repo.EXPECT().CreateEvalTargetRecord(ctx, gomock.Any()).Return(int64(999), nil)
 				deps.metric.EXPECT().EmitRun(param.SpaceID, gomock.Any(), gomock.Any()).Times(1)
@@ -1364,6 +1370,7 @@ func TestEvalTargetServiceImpl_DebugTarget(t *testing.T) {
 			prepare: func(ctx context.Context, deps *evalTargetServiceTestDeps, param *entity.DebugTargetParam) {
 				deps.operator.EXPECT().ValidateInput(ctx, param.SpaceID, param.PatchyTarget.EvalTargetVersion.InputSchema, param.InputData).Return(nil)
 				deps.operator.EXPECT().Execute(ctx, param.SpaceID, gomock.Any()).Return(nil, entity.EvalTargetRunStatusFail, errorx.New("common error"))
+				deps.configer.EXPECT().GetErrCtrl(gomock.Any()).Return(&entity.ExptErrCtrl{}).Times(1)
 				deps.idgen.EXPECT().GenID(ctx).Return(int64(999), nil)
 				deps.repo.EXPECT().CreateEvalTargetRecord(ctx, gomock.Any()).Return(int64(999), nil)
 				deps.metric.EXPECT().EmitRun(param.SpaceID, gomock.Any(), gomock.Any()).Times(1)
@@ -1482,6 +1489,7 @@ func TestEvalTargetServiceImpl_DebugTarget(t *testing.T) {
 				evalTargetRepo: deps.repo,
 				idgen:          deps.idgen,
 				metric:         deps.metric,
+				configer:       deps.configer,
 				typedOperators: typedOps,
 			}
 
diff --git a/idl/thrift/coze/loop/evaluation/coze.loop.evaluation.eval_set.thrift b/idl/thrift/coze/loop/evaluation/coze.loop.evaluation.eval_set.thrift
@@ -411,7 +411,7 @@ service EvaluationSetService {
 
     // 数据管理
     BatchCreateEvaluationSetItemsResponse BatchCreateEvaluationSetItems(1: BatchCreateEvaluationSetItemsRequest req) (
-        api.category="evaluation_set", api.post = "/api/evaluation/v1/evaluation_sets/:evaluation_set_id/items/batch_create", api.op_type = 'query', api.tag = 'volc-agentkit,open'
+        api.category="evaluation_set", api.post = "/api/evaluation/v1/evaluation_sets/:evaluation_set_id/items/batch_create", api.op_type = 'create', api.tag = 'volc-agentkit,open'
     )
     UpdateEvaluationSetItemResponse UpdateEvaluationSetItem(1: UpdateEvaluationSetItemRequest req) (
         api.category="evaluation_set", api.put = "/api/evaluation/v1/evaluation_sets/:evaluation_set_id/items/:item_id", api.op_type = 'update', api.tag = 'volc-agentkit,open'
diff --git a/idl/thrift/coze/loop/evaluation/coze.loop.evaluation.evaluator.thrift b/idl/thrift/coze/loop/evaluation/coze.loop.evaluation.evaluator.thrift
@@ -539,7 +539,7 @@ service EvaluatorService {
 
     // 评估器执行结果
     UpdateEvaluatorRecordResponse UpdateEvaluatorRecord(1: UpdateEvaluatorRecordRequest req) (
-        api.patch="/api/evaluation/v1/evaluator_records/:evaluator_record_id", api.op_type = 'query', api.tag = 'volc-agentkit', api.category = 'evaluator'
+        api.patch="/api/evaluation/v1/evaluator_records/:evaluator_record_id", api.op_type = 'update', api.tag = 'volc-agentkit', api.category = 'evaluator'
     ) // 修正evaluator运行分数
     GetEvaluatorRecordResponse GetEvaluatorRecord(1: GetEvaluatorRecordRequest req)
     BatchGetEvaluatorRecordsResponse BatchGetEvaluatorRecords(1: BatchGetEvaluatorRecordsRequest req)
@@ -579,7 +579,7 @@ service EvaluatorService {
     UpdateBuiltinEvaluatorTagsResponse UpdateBuiltinEvaluatorTags(1: UpdateBuiltinEvaluatorTagsRequest req)
     // 查询Tag
     ListEvaluatorTagsResponse ListEvaluatorTags(1: ListEvaluatorTagsRequest req) (
-        api.post="/api/evaluation/v1/evaluators/list_tags", api.op_type = 'query', api.tag = 'volc-agentkit', api.category = 'evaluator'
+        api.post="/api/evaluation/v1/evaluators/list_tags", api.op_type = 'list', api.tag = 'volc-agentkit', api.category = 'evaluator'
     )
 
 }
diff --git a/idl/thrift/coze/loop/evaluation/coze.loop.evaluation.expt.thrift b/idl/thrift/coze/loop/evaluation/coze.loop.evaluation.expt.thrift

Original file line number	Diff line number	Diff line change
`@@ -1817,10 +1817,6 @@ func (e *ExptResultBuilder) getTurnTargetOutput(ctx context.Context, itemID, tur`
`1817`	`1817`	`return &entity.TurnTargetOutput{}`
`1818`	`1818`	`}`
`1819`	`1819`
`1820`		`- if turnTargetOutput.EvalTargetRecord != nil && turnTargetOutput.EvalTargetRecord.EvalTargetOutputData != nil && turnTargetOutput.EvalTargetRecord.EvalTargetOutputData.EvalTargetRunError != nil {`
`1821`		`- turnTargetOutput.EvalTargetRecord.EvalTargetOutputData.EvalTargetRunError.Message = errno.ServiceInternalErrMsg`
`1822`		`- }`
`1823`		`-`
`1824`	`1820`	`return turnTargetOutput`
`1825`	`1821`	`}`
`1826`	`1822`
Original file line number	Diff line number	Diff line change
`@@ -207,7 +207,7 @@ func (e *ExptItemEventEvalServiceImpl) HandleEventErr(next RecordEvalEndPoint) R`
`207`	`207`	`func (e *ExptItemEventEvalServiceImpl) HandleEventLock(next RecordEvalEndPoint) RecordEvalEndPoint {`
`208`	`208`	`return func(ctx context.Context, event *entity.ExptItemEvalEvent) error {`
`209`	`209`	`lockKey := fmt.Sprintf("expt_item_eval_run_lock:%d:%d", event.ExptID, event.EvalSetItemID)`
`210`		`- locked, ctx, cancel, err := e.mutex.LockWithRenew(ctx, lockKey, time.Second10, time.Second60*60)`
	`210`	`+ locked, ctx, cancel, err := e.mutex.LockWithRenew(ctx, lockKey, time.Second5, time.Second60*60)`
`211`	`211`	`if err != nil {`
`212`	`212`	`return err`
`213`	`213`	`}`
Original file line number	Diff line number	Diff line change
`@@ -163,7 +163,7 @@ func (e *ExptSchedulerImpl) makeExptRunExecLockKey(exptID, exptRunID int64) stri`
`163`	`163`	`func (e *ExptSchedulerImpl) HandleEventLock(next SchedulerEndPoint) SchedulerEndPoint {`
`164`	`164`	`return func(ctx context.Context, event *entity.ExptScheduleEvent) error {`
`165`	`165`	`key := e.makeExptRunExecLockKey(event.ExptID, event.ExptRunID)`
`166`		`- locked, ctx, cancel, err := e.Mutex.LockWithRenew(ctx, key, time.Second10, time.Second60*5)`
	`166`	`+ locked, ctx, cancel, err := e.Mutex.LockWithRenew(ctx, key, time.Second5, time.Second60*5)`
`167`	`167`	`if err != nil {`
`168`	`168`	`return err`
`169`	`169`	`}`
Original file line number	Diff line number	Diff line change
`@@ -411,7 +411,7 @@ service EvaluationSetService {`
`411`	`411`
`412`	`412`	`// 数据管理`
`413`	`413`	`BatchCreateEvaluationSetItemsResponse BatchCreateEvaluationSetItems(1: BatchCreateEvaluationSetItemsRequest req) (`
`414`		`- api.category="evaluation_set", api.post = "/api/evaluation/v1/evaluation_sets/:evaluation_set_id/items/batch_create", api.op_type = 'query', api.tag = 'volc-agentkit,open'`
	`414`	`+ api.category="evaluation_set", api.post = "/api/evaluation/v1/evaluation_sets/:evaluation_set_id/items/batch_create", api.op_type = 'create', api.tag = 'volc-agentkit,open'`
`415`	`415`	`)`
`416`	`416`	`UpdateEvaluationSetItemResponse UpdateEvaluationSetItem(1: UpdateEvaluationSetItemRequest req) (`
`417`	`417`	`api.category="evaluation_set", api.put = "/api/evaluation/v1/evaluation_sets/:evaluation_set_id/items/:item_id", api.op_type = 'update', api.tag = 'volc-agentkit,open'`