weight score draft

tpfz · tpfz · commit 4012cedf4ec9 · 2025-12-17T20:47:09.000+08:00
diff --git a/backend/modules/evaluation/application/convertor/experiment/expt.go b/backend/modules/evaluation/application/convertor/experiment/expt.go
@@ -29,18 +29,19 @@ type EvalConfConvert struct{}
 
 func (e *EvalConfConvert) ConvertToEntity(cer *expt.CreateExperimentRequest) (*entity.EvaluationConfiguration, error) {
 	ec := &entity.EvaluationConfiguration{
-		ItemConcurNum:         ptr.ConvIntPtr[int32, int](cer.ItemConcurNum),
-		EnableWeightedScore:   gptr.Indirect(cer.EnableWeightedScore),
-		EvaluatorScoreWeights: cer.GetEvaluatorScoreWeights(),
+		ItemConcurNum: ptr.ConvIntPtr[int32, int](cer.ItemConcurNum),
 	}
+
 	ec.ConnectorConf.TargetConf = &entity.TargetConf{
 		TargetVersionID: cer.GetTargetVersionID(),
 		IngressConf:     toTargetFieldMappingDO(cer.GetTargetFieldMapping(), cer.GetTargetRuntimeParam()),
 	}
 	if cer.GetEvaluatorFieldMapping() != nil {
 		ec.ConnectorConf.EvaluatorsConf = &entity.EvaluatorsConf{
-			EvaluatorConcurNum: ptr.ConvIntPtr[int32, int](cer.EvaluatorsConcurNum),
-			EvaluatorConf:      toEvaluatorFieldMappingDo(cer.GetEvaluatorFieldMapping()),
+			EvaluatorConcurNum:   ptr.ConvIntPtr[int32, int](cer.EvaluatorsConcurNum),
+			EvaluatorConf:        toEvaluatorFieldMappingDo(cer.GetEvaluatorFieldMapping()),
+			EnableWeightedScore:   gptr.Indirect(cer.EnableWeightedScore),
+			EvaluatorScoreWeights: cer.GetEvaluatorScoreWeights(),
 		}
 	}
 	return ec, nil
diff --git a/backend/modules/evaluation/application/convertor/experiment/expt_template.go b/backend/modules/evaluation/application/convertor/experiment/expt_template.go
@@ -34,10 +34,8 @@ func ConvertCreateExptTemplateReq(req *expt.CreateExperimentTemplateRequest) (*e
 
 	// 转换模板配置
 	templateConf := &entity.ExptTemplateConfiguration{
-		EnableWeightedScore:   gptr.Indirect(req.EnableWeightedScore),
-		EvaluatorScoreWeights: req.GetEvaluatorScoreWeights(),
-		ItemConcurNum:         ptr.ConvIntPtr[int32, int](req.DefaultItemConcurNum),
-		EvaluatorsConcurNum:   ptr.ConvIntPtr[int32, int](req.DefaultEvaluatorsConcurNum),
+		ItemConcurNum:       ptr.ConvIntPtr[int32, int](req.DefaultItemConcurNum),
+		EvaluatorsConcurNum: ptr.ConvIntPtr[int32, int](req.DefaultEvaluatorsConcurNum),
 	}
 
 	// 构建 ConnectorConf
@@ -51,7 +49,9 @@ func ConvertCreateExptTemplateReq(req *expt.CreateExperimentTemplateRequest) (*e
 
 		if len(evaluatorFieldMapping) > 0 {
 			templateConf.ConnectorConf.EvaluatorsConf = &entity.EvaluatorsConf{
-				EvaluatorConf: evaluatorFieldMapping,
+				EvaluatorConf:        evaluatorFieldMapping,
+				EnableWeightedScore:   gptr.Indirect(req.EnableWeightedScore),
+				EvaluatorScoreWeights: req.GetEvaluatorScoreWeights(),
 			}
 		}
 	}
diff --git a/backend/modules/evaluation/domain/entity/expt.go b/backend/modules/evaluation/domain/entity/expt.go
@@ -160,9 +160,6 @@ func (e *ExptEvaluatorVersionRef) String() string {
 type EvaluationConfiguration struct {
 	ConnectorConf Connector
 	ItemConcurNum *int
-	// 评估器得分加权配置
-	EnableWeightedScore   bool
-	EvaluatorScoreWeights map[int64]float64
 }
 
 type Connector struct {
@@ -196,6 +193,9 @@ type TargetIngressConf struct {
 type EvaluatorsConf struct {
 	EvaluatorConcurNum *int
 	EvaluatorConf      []*EvaluatorConf
+	// 评估器得分加权配置（移动自 EvaluationConfiguration）
+	EnableWeightedScore   bool
+	EvaluatorScoreWeights map[int64]float64
 }
 
 func (e *EvaluatorsConf) Valid(ctx context.Context) error {
diff --git a/backend/modules/evaluation/domain/entity/expt_result.go b/backend/modules/evaluation/domain/entity/expt_result.go
@@ -34,7 +34,7 @@ const (
 	// 标注项, FieldKey为TagKeyID
 	FieldType_Annotation FieldType = 23
 
-	// 加权得分, FieldKey为expt_id, value为weightedScore
+	// 加权得分, FieldKey为expt_id
 	FieldType_WeightedScore FieldType = 24
 )
 
diff --git a/backend/modules/evaluation/domain/entity/expt_template.go b/backend/modules/evaluation/domain/entity/expt_template.go
@@ -54,10 +54,6 @@ type ExptTemplateConfiguration struct {
 	ConnectorConf Connector
 	ItemConcurNum *int
 
-	// 评估器得分加权配置
-	EnableWeightedScore   bool
-	EvaluatorScoreWeights map[int64]float64
-
 	// 默认评估器并发数
 	EvaluatorsConcurNum *int
 }
diff --git a/backend/modules/evaluation/domain/service/expt_result_aggr_impl.go b/backend/modules/evaluation/domain/service/expt_result_aggr_impl.go
@@ -119,6 +119,7 @@ func (e *ExptAggrResultServiceImpl) CreateExptAggrResult(ctx context.Context, sp
 
 func (e *ExptAggrResultServiceImpl) createExptAggrResult(ctx context.Context, spaceID, experimentID int64, evaluatorVersionID2AggregatorGroup map[int64]*AggregatorGroup) error {
 	exptAggrResults := make([]*entity.ExptAggrResult, 0)
+
 	for evaluatorVersionID, aggregatorGroup := range evaluatorVersionID2AggregatorGroup {
 		aggrResult := aggregatorGroup.Result()
 		var averageScore float64
@@ -143,7 +144,18 @@ func (e *ExptAggrResultServiceImpl) createExptAggrResult(ctx context.Context, sp
 		})
 	}
 
-	err := e.exptAggrResultRepo.BatchCreateExptAggrResult(ctx, exptAggrResults)
+	// 追加“加权得分”聚合指标（FieldType_WeightedScore）：
+	// 基于行级 WeightedScore 做聚合（加权评分的聚合），而不是对各评估器聚合结果再加权。
+	experiment, err := e.experimentRepo.GetByID(ctx, experimentID, spaceID)
+	if err == nil && experiment != nil && experiment.EvalConf != nil && experiment.EvalConf.EnableWeightedScore {
+		if weightedAggr, err := e.createWeightedScoreAggrResult(ctx, spaceID, experimentID); err != nil {
+			return err
+		} else if weightedAggr != nil {
+			exptAggrResults = append(exptAggrResults, weightedAggr)
+		}
+	}
+
+	err = e.exptAggrResultRepo.BatchCreateExptAggrResult(ctx, exptAggrResults)
 	if err != nil {
 		return err
 	}
@@ -153,6 +165,77 @@ func (e *ExptAggrResultServiceImpl) createExptAggrResult(ctx context.Context, sp
 	return nil
 }
 
+// createWeightedScoreAggrResult 基于行级 WeightedScore 计算聚合指标
+// 只统计成功的轮次（TurnRunState_Success）
+func (e *ExptAggrResultServiceImpl) createWeightedScoreAggrResult(ctx context.Context, spaceID, experimentID int64) (*entity.ExptAggrResult, error) {
+	const (
+		limit  = int64(500)
+		maxTry = 10000
+	)
+
+	aggGroup := NewAggregatorGroup(WithScoreDistributionAggregator())
+	var (
+		cursor  int64
+		hasData bool
+	)
+
+	for i := 0; i < maxTry; i++ {
+		turnResults, nextCursor, err := e.exptTurnResultRepo.ScanTurnResults(
+			ctx,
+			experimentID,
+			[]int32{int32(entity.TurnRunState_Success)},
+			cursor,
+			limit,
+			spaceID,
+		)
+		if err != nil {
+			return nil, err
+		}
+		if len(turnResults) == 0 {
+			break
+		}
+
+		for _, tr := range turnResults {
+			aggGroup.Append(tr.WeightedScore)
+			hasData = true
+		}
+
+		if nextCursor == 0 || nextCursor == cursor {
+			break
+		}
+		cursor = nextCursor
+	}
+
+	if !hasData {
+		return nil, nil
+	}
+
+	aggrResult := aggGroup.Result()
+	var averageScore float64
+	for _, r := range aggrResult.AggregatorResults {
+		if r.AggregatorType == entity.Average {
+			averageScore = r.GetScore()
+			break
+		}
+	}
+
+	aggrBytes, err := json.Marshal(aggrResult)
+	if err != nil {
+		return nil, err
+	}
+
+	return &entity.ExptAggrResult{
+		SpaceID:      spaceID,
+		ExperimentID: experimentID,
+		FieldType:    int32(entity.FieldType_WeightedScore),
+		// 约定 FieldKey 为 experimentID
+		FieldKey:   strconv.FormatInt(experimentID, 10),
+		Score:      averageScore,
+		AggrResult: aggrBytes,
+		Version:    0,
+	}, nil
+}
+
 func (e *ExptAggrResultServiceImpl) UpdateExptAggrResult(ctx context.Context, param *entity.UpdateExptAggrResultParam) (err error) {
 	now := time.Now().Unix()
 	defer func() {
@@ -307,8 +390,10 @@ func (e *ExptAggrResultServiceImpl) BatchGetExptAggrResultByExperimentIDs(ctx co
 	for exptID, exptResult := range expt2AggrResults {
 		evaluatorResults := make(map[int64]*entity.EvaluatorAggregateResult)
 		annotationResults := make(map[int64]*entity.AnnotationAggregateResult)
+		var weightedResults []*entity.AggregatorResult
 
 		for _, fieldResult := range exptResult {
+			// 标注类聚合
 			if fieldResult.FieldType == int32(entity.FieldType_Annotation) {
 				tagKeyID, err := strconv.ParseInt(fieldResult.FieldKey, 10, 64)
 				if err != nil {
@@ -332,46 +417,55 @@ func (e *ExptAggrResultServiceImpl) BatchGetExptAggrResultByExperimentIDs(ctx co
 				annotationResults[tagKeyID] = annotationResult
 			}
 
-			if fieldResult.FieldType != int32(entity.FieldType_EvaluatorScore) {
-				continue
-			}
+			// 评估器聚合得分
+			if fieldResult.FieldType == int32(entity.FieldType_EvaluatorScore) {
+				evaluatorVersionID, err := strconv.ParseInt(fieldResult.FieldKey, 10, 64)
+				if err != nil {
+					return nil, fmt.Errorf("failed to parse evaluator version id from field key %s, err: %v", fieldResult.FieldKey, err)
+				}
 
-			evaluatorVersionID, err := strconv.ParseInt(fieldResult.FieldKey, 10, 64)
-			if err != nil {
-				return nil, fmt.Errorf("failed to parse evaluator version id from field key %s, err: %v", fieldResult.FieldKey, err)
-			}
+				aggregateResultDO := entity.AggregateResult{}
+				err = json.Unmarshal(fieldResult.AggrResult, &aggregateResultDO)
+				if err != nil {
+					return nil, fmt.Errorf("json.Unmarshal(%s) failed, err: %v", fieldResult.AggrResult, err)
+				}
 
-			aggregateResultDO := entity.AggregateResult{}
-			err = json.Unmarshal(fieldResult.AggrResult, &aggregateResultDO)
-			if err != nil {
-				return nil, fmt.Errorf("json.Unmarshal(%s) failed, err: %v", fieldResult.AggrResult, err)
-			}
+				evaluator, ok := versionID2Evaluator[evaluatorVersionID]
+				if !ok {
+					return nil, fmt.Errorf("failed to get evaluator by version_id %d", evaluatorVersionID)
+				}
 
-			evaluator, ok := versionID2Evaluator[evaluatorVersionID]
-			if !ok {
-				return nil, fmt.Errorf("failed to get evaluator by version_id %d", evaluatorVersionID)
+				evaluatorAggrResult := entity.EvaluatorAggregateResult{
+					EvaluatorID:        evaluator.ID,
+					EvaluatorVersionID: evaluatorVersionID,
+					AggregatorResults:  aggregateResultDO.AggregatorResults,
+					Name:               gptr.Of(evaluator.Name),
+					Version:            gptr.Of(evaluator.GetVersion()),
+				}
+				evaluatorResults[evaluatorVersionID] = &evaluatorAggrResult
+				continue
 			}
 
-			evaluatorAggrResult := entity.EvaluatorAggregateResult{
-				EvaluatorID:        evaluator.ID,
-				EvaluatorVersionID: evaluatorVersionID,
-				AggregatorResults:  aggregateResultDO.AggregatorResults,
-				Name:               gptr.Of(evaluator.Name),
-				Version:            gptr.Of(evaluator.GetVersion()),
+			// 加权得分聚合（FieldType_WeightedScore）：直接使用预先计算好的加权评分聚合结果
+			if fieldResult.FieldType == int32(entity.FieldType_WeightedScore) {
+				aggregateResultDO := entity.AggregateResult{}
+				if err := json.Unmarshal(fieldResult.AggrResult, &aggregateResultDO); err != nil {
+					return nil, fmt.Errorf("json.Unmarshal(%s) failed, err: %v", fieldResult.AggrResult, err)
+				}
+				weightedResults = aggregateResultDO.AggregatorResults
+				continue
 			}
-			evaluatorResults[evaluatorVersionID] = &evaluatorAggrResult
-
 		}
+
 		exptAgg := &entity.ExptAggregateResult{
 			ExperimentID:      exptID,
 			EvaluatorResults:  evaluatorResults,
 			AnnotationResults: annotationResults,
 		}
 
-		// 计算所有聚合指标的加权结果（如 avg、p99 等）
-		experiment, err := e.experimentRepo.GetByID(ctx, exptID, spaceID)
-		if err == nil && experiment != nil && experiment.EvalConf != nil && experiment.EvalConf.EnableWeightedScore {
-			exptAgg.WeightedResults = e.calculateWeightedAggregateResults(evaluatorResults, experiment.EvalConf.EvaluatorScoreWeights)
+		// 将加权聚合指标挂到结果中
+		if len(weightedResults) > 0 {
+			exptAgg.WeightedResults = weightedResults
 		}
 
 		results = append(results, exptAgg)
diff --git a/backend/modules/evaluation/domain/service/expt_result_impl.go b/backend/modules/evaluation/domain/service/expt_result_impl.go
@@ -171,9 +171,9 @@ func (e ExptResultServiceImpl) RecordItemRunLogs(ctx context.Context, exptID, ex
 		scoreWeights        map[int64]float64
 	)
 	expt, err := e.ExperimentRepo.GetByID(ctx, exptID, spaceID)
-	if err == nil && expt != nil && expt.EvalConf != nil && expt.EvalConf.EnableWeightedScore {
+	if err == nil && expt != nil && expt.EvalConf != nil && expt.EvalConf.ConnectorConf.EvaluatorsConf != nil && expt.EvalConf.ConnectorConf.EvaluatorsConf.EnableWeightedScore {
 		enableWeightedScore = true
-		scoreWeights = expt.EvalConf.EvaluatorScoreWeights
+		scoreWeights = expt.EvalConf.ConnectorConf.EvaluatorsConf.EvaluatorScoreWeights
 	}
 
 	var (
@@ -1364,10 +1364,43 @@ func calculateWeightedScore(
 	evaluatorRecords map[int64]*entity.EvaluatorRecord,
 	weights map[int64]float64,
 ) *float64 {
-	if len(evaluatorRecords) == 0 || len(weights) == 0 {
+	if len(evaluatorRecords) == 0 {
 		return nil
 	}
 
+	// 如果未配置权重（weights 为空），则按所有评估器权重相同计算加权分（即简单平均）
+	if len(weights) == 0 {
+		var (
+			sumScore float64
+			cnt      int
+		)
+		for _, record := range evaluatorRecords {
+			if record == nil {
+				continue
+			}
+			// 获取评估器分数（优先使用修正分数）
+			var score *float64
+			if record.EvaluatorOutputData != nil && record.EvaluatorOutputData.EvaluatorResult != nil {
+				if record.EvaluatorOutputData.EvaluatorResult.Correction != nil &&
+					record.EvaluatorOutputData.EvaluatorResult.Correction.Score != nil {
+					score = record.EvaluatorOutputData.EvaluatorResult.Correction.Score
+				} else if record.EvaluatorOutputData.EvaluatorResult.Score != nil {
+					score = record.EvaluatorOutputData.EvaluatorResult.Score
+				}
+			}
+			if score == nil {
+				continue
+			}
+			sumScore += *score
+			cnt++
+		}
+		if cnt == 0 {
+			return nil
+		}
+		avg := sumScore / float64(cnt)
+		return &avg
+	}
+
 	var totalWeightedScore float64
 	var totalWeight float64
 	hasValidScore := false
diff --git a/idl/thrift/coze/loop/evaluation/domain/expt.thrift b/idl/thrift/coze/loop/evaluation/domain/expt.thrift
@@ -63,6 +63,9 @@ struct Experiment {
     43: optional string source_id
 
     50: optional ExptTemplate expt_template
+    // 评估器得分加权配置
+    51: optional bool enable_weighted_score
+    52: optional map<i64, double> evaluator_score_weights
 }
 
 // 离线实验模板，用于预先配置评测对象、评测集与评估器，并在创建实验时复用

Original file line number	Diff line number	Diff line change
`@@ -29,18 +29,19 @@ type EvalConfConvert struct{}`
`29`	`29`
`30`	`30`	`func (e EvalConfConvert) ConvertToEntity(cer expt.CreateExperimentRequest) (*entity.EvaluationConfiguration, error) {`
`31`	`31`	`ec := &entity.EvaluationConfiguration{`
`32`		`- ItemConcurNum: ptr.ConvIntPtr[int32, int](cer.ItemConcurNum),`
`33`		`- EnableWeightedScore: gptr.Indirect(cer.EnableWeightedScore),`
`34`		`- EvaluatorScoreWeights: cer.GetEvaluatorScoreWeights(),`
	`32`	`+ ItemConcurNum: ptr.ConvIntPtr[int32, int](cer.ItemConcurNum),`
`35`	`33`	`}`
	`34`	`+`
`36`	`35`	`ec.ConnectorConf.TargetConf = &entity.TargetConf{`
`37`	`36`	`TargetVersionID: cer.GetTargetVersionID(),`
`38`	`37`	`IngressConf: toTargetFieldMappingDO(cer.GetTargetFieldMapping(), cer.GetTargetRuntimeParam()),`
`39`	`38`	`}`
`40`	`39`	`if cer.GetEvaluatorFieldMapping() != nil {`
`41`	`40`	`ec.ConnectorConf.EvaluatorsConf = &entity.EvaluatorsConf{`
`42`		`- EvaluatorConcurNum: ptr.ConvIntPtr[int32, int](cer.EvaluatorsConcurNum),`
`43`		`- EvaluatorConf: toEvaluatorFieldMappingDo(cer.GetEvaluatorFieldMapping()),`
	`41`	`+ EvaluatorConcurNum: ptr.ConvIntPtr[int32, int](cer.EvaluatorsConcurNum),`
	`42`	`+ EvaluatorConf: toEvaluatorFieldMappingDo(cer.GetEvaluatorFieldMapping()),`
	`43`	`+ EnableWeightedScore: gptr.Indirect(cer.EnableWeightedScore),`
	`44`	`+ EvaluatorScoreWeights: cer.GetEvaluatorScoreWeights(),`
`44`	`45`	`}`
`45`	`46`	`}`
`46`	`47`	`return ec, nil`
Original file line number	Diff line number	Diff line change
`@@ -34,10 +34,8 @@ func ConvertCreateExptTemplateReq(req expt.CreateExperimentTemplateRequest) (e`
`34`	`34`
`35`	`35`	`// 转换模板配置`
`36`	`36`	`templateConf := &entity.ExptTemplateConfiguration{`
`37`		`- EnableWeightedScore: gptr.Indirect(req.EnableWeightedScore),`
`38`		`- EvaluatorScoreWeights: req.GetEvaluatorScoreWeights(),`
`39`		`- ItemConcurNum: ptr.ConvIntPtr[int32, int](req.DefaultItemConcurNum),`
`40`		`- EvaluatorsConcurNum: ptr.ConvIntPtr[int32, int](req.DefaultEvaluatorsConcurNum),`
	`37`	`+ ItemConcurNum: ptr.ConvIntPtr[int32, int](req.DefaultItemConcurNum),`
	`38`	`+ EvaluatorsConcurNum: ptr.ConvIntPtr[int32, int](req.DefaultEvaluatorsConcurNum),`
`41`	`39`	`}`
`42`	`40`
`43`	`41`	`// 构建 ConnectorConf`
`@@ -51,7 +49,9 @@ func ConvertCreateExptTemplateReq(req expt.CreateExperimentTemplateRequest) (e`
`51`	`49`
`52`	`50`	`if len(evaluatorFieldMapping) > 0 {`
`53`	`51`	`templateConf.ConnectorConf.EvaluatorsConf = &entity.EvaluatorsConf{`
`54`		`- EvaluatorConf: evaluatorFieldMapping,`
	`52`	`+ EvaluatorConf: evaluatorFieldMapping,`
	`53`	`+ EnableWeightedScore: gptr.Indirect(req.EnableWeightedScore),`
	`54`	`+ EvaluatorScoreWeights: req.GetEvaluatorScoreWeights(),`
`55`	`55`	`}`
`56`	`56`	`}`
`57`	`57`	`}`
Original file line number	Diff line number	Diff line change
`@@ -34,7 +34,7 @@ const (`
`34`	`34`	`// 标注项, FieldKey为TagKeyID`
`35`	`35`	`FieldType_Annotation FieldType = 23`
`36`	`36`
`37`		`- // 加权得分, FieldKey为expt_id, value为weightedScore`
	`37`	`+ // 加权得分, FieldKey为expt_id`
`38`	`38`	`FieldType_WeightedScore FieldType = 24`
`39`	`39`	`)`
`40`	`40`
Original file line number	Diff line number	Diff line change
`@@ -63,6 +63,9 @@ struct Experiment {`
`63`	`63`	`43: optional string source_id`
`64`	`64`
`65`	`65`	`50: optional ExptTemplate expt_template`
	`66`	`+ // 评估器得分加权配置`
	`67`	`+ 51: optional bool enable_weighted_score`
	`68`	`+ 52: optional map<i64, double> evaluator_score_weights`
`66`	`69`	`}`
`67`	`70`
`68`	`71`	`// 离线实验模板，用于预先配置评测对象、评测集与评估器，并在创建实验时复用`