modelscope
diff --git a/‎tutorial/example_deep_finance/deep_finance.py‎
Lines changed: 4 additions & 4 deletions b/‎tutorial/example_deep_finance/deep_finance.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎tutorial/example_deep_finance/deep_finance.sh‎
Lines changed: 9 additions & 1 deletion b/‎tutorial/example_deep_finance/deep_finance.sh‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎tutorial/example_deep_finance/deep_finance.yaml‎
Lines changed: 1 addition & 1 deletion b/‎tutorial/example_deep_finance/deep_finance.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tutorial/example_deep_finance/deep_finance_judge.py‎
Lines changed: 8 additions & 2 deletions b/‎tutorial/example_deep_finance/deep_finance_judge.py‎
Lines changed: 8 additions & 2 deletions
diff --git a/‎tutorial/example_deep_finance/deep_finance_single.sh‎
Lines changed: 23 additions & 5 deletions b/‎tutorial/example_deep_finance/deep_finance_single.sh‎
Lines changed: 23 additions & 5 deletions
diff --git a/‎tutorial/example_deep_finance/judge/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎tutorial/example_deep_finance/judge/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎tutorial/example_deep_finance/judge/audit/grader.py‎
Lines changed: 5 additions & 5 deletions b/‎tutorial/example_deep_finance/judge/audit/grader.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎tutorial/example_deep_finance/judge/audit/json_utils.py‎
Lines changed: 87 additions & 1 deletion b/‎tutorial/example_deep_finance/judge/audit/json_utils.py‎
Lines changed: 87 additions & 1 deletion
@@ -9,7 +9,7 @@
 
 
 # 创建信号量，允许同时12个线程运行
-sem = threading.Semaphore(30)
+sem = threading.Semaphore(60)
 
 class ExampleDeepResearchProtocol(Workflow):
 
@@ -125,9 +125,9 @@ async def execute(
             if info:
                 if 'tool_stats' in info:
                     latest_tool_stats = info['tool_stats']
-                    if latest_tool_stats.get('total_calls', 0) > 0:
-                        logger.info(f"步骤 {step + 1} 工具统计: 调用={latest_tool_stats.get('total_calls', 0)}, "
-                                    f"成功率={latest_tool_stats.get('success_rate', 0):.1f}%")
+                    # if latest_tool_stats.get('total_calls', 0) > 0:
+                    #     logger.info(f"步骤 {step + 1} 工具统计: 调用={latest_tool_stats.get('total_calls', 0)}, "
+                    #                 f"成功率={latest_tool_stats.get('success_rate', 0):.1f}%")
                 if 'reward_stats' in info:
                     latest_reward_stats = info['reward_stats']
                     # 累加工具调用时间
 
@@ -15,6 +15,10 @@ JUDGE_CONCURRENCY=10
 RM_WEIGHT=0.5
 PRESENTATION_QUALITY_WEIGHT=0.25
 GROUNDING_WEIGHT=0.25
+CGCV_WEIGHT=0.0                   # 不使用 CGCV，设为 0
+AUDIT_WEIGHT=0.0                  # 不使用 Audit，设为 0
+TRACEABILITY_WEIGHT=0.0           # 不使用 Traceability，设为 0
+EBTU_WEIGHT=0.0                   # 不使用 EBTU，设为 0
 
 # 训练参数配置
 NUM_REPEAT=4        # group size，每个query rollout NUM_REPEAT次
@@ -60,6 +64,10 @@ sed -e "s|{{SUFFIX}}|${SUFFIX}|g" \
     -e "s|{{RM_WEIGHT}}|${RM_WEIGHT}|g" \
     -e "s|{{PRESENTATION_QUALITY_WEIGHT}}|${PRESENTATION_QUALITY_WEIGHT}|g" \
     -e "s|{{GROUNDING_WEIGHT}}|${GROUNDING_WEIGHT}|g" \
+    -e "s|{{CGCV_WEIGHT}}|${CGCV_WEIGHT}|g" \
+    -e "s|{{AUDIT_WEIGHT}}|${AUDIT_WEIGHT}|g" \
+    -e "s|{{TRACEABILITY_WEIGHT}}|${TRACEABILITY_WEIGHT}|g" \
+    -e "s|{{EBTU_WEIGHT}}|${EBTU_WEIGHT}|g" \
     -e "s|{{OPENJUDGE_LLM}}|${OPENJUDGE_LLM}|g" \
     -e "s|{{RM_LLM}}|${RM_LLM}|g" \
     -e "s|{{JUDGE_CONCURRENCY}}|${JUDGE_CONCURRENCY}|g" \
@@ -75,7 +83,7 @@ sed -e "s|{{SUFFIX}}|${SUFFIX}|g" \
     ${AJET_ROOT}/${CONFIG_TEMPLATE} > ${CONFIG_FILE}
 
 echo "配置文件已生成: ${CONFIG_FILE}"
-echo "参数确认: RM=${RM_WEIGHT}, PresentationQuality=${PRESENTATION_QUALITY_WEIGHT}, Grounding=${GROUNDING_WEIGHT}, OpenJudge=${OPENJUDGE_LLM}, RM_LLM=${RM_LLM}"
+echo "参数确认: RM=${RM_WEIGHT}, PresentationQuality=${PRESENTATION_QUALITY_WEIGHT}, Grounding=${GROUNDING_WEIGHT}, CGCV=${CGCV_WEIGHT}, Audit=${AUDIT_WEIGHT}, Traceability=${TRACEABILITY_WEIGHT}, EBTU=${EBTU_WEIGHT}, OpenJudge=${OPENJUDGE_LLM}, RM_LLM=${RM_LLM}"
 
 #===============================================================================
 # 3. 环境配置
 
@@ -38,7 +38,7 @@ ajet:
     max_env_worker: 64  # 增加环境并行数
     max_num_seqs: 64    # 增加VLLM并发序列数
     max_response_length_in_one_turn: 8000
-    max_model_len: 50000
+    max_model_len: 40960
     agent_madness_reward: 0.0
     compute_madness_checklist: None
     multi_turn:
 
@@ -15,7 +15,7 @@
 
 from openjudge.models.openai_chat_model import OpenAIChatModel
 from openjudge.runner.grading_runner import GraderConfig, GradingRunner
-from tutorial.example_deep_finance.judge import PresentationQualityGrader, GroundingGrader, CGCVGrader, AuditGrader, TraceabilityRewardGrader
+from tutorial.example_deep_finance.judge import PresentationQualityGrader, GroundingGrader, CGCVGrader, AuditGrader, TraceabilityRewardGrader, EBTUTraceabilityGrader
 
 
 
@@ -105,8 +105,9 @@ def _setup_weights(self):
             "presentation_quality": getattr(cfg, "presentation_quality_weight", 0.25) if cfg else 0.25,
             "grounding": getattr(cfg, "grounding_weight", 0.0) if cfg else 0.0,  # 引用规范性评估
             "cgcv": getattr(cfg, "cgcv_weight", 0.25) if cfg else 0.25,  # Citation-Grounded Claim Verification
-            "audit": getattr(cfg, "audit_weight", 0.0) if cfg else 0.0,  # 引用逻辑审计
+            "audit": getattr(cfg, "audit_weight", 0.0) if cfg else 0.0,  # Audit Grader: audit reward 引用逻辑审计
             "traceability": getattr(cfg, "traceability_weight", 0.0) if cfg else 0.0,  # 可追溯性/可核验性审计 (TVR)
+            "ebtu": getattr(cfg, "ebtu_weight", 0.0) if cfg else 0.0,  # Audit Grader: audit reward EBTU证据优先可追溯性审计
         }
 
         # 归一化（注意：action_loop 是惩罚项，不参与归一化；rm 需要参与归一化）
@@ -274,6 +275,11 @@ def extract_report_content(data: Dict) -> str:
                 grader=TraceabilityRewardGrader(model=model),
                 mapper=lambda data: {"traj": data},
             ),
+            # Audit Grader: audit reward EBTU证据优先可追溯性审计 - Evidence-Backed Trace Units
+            "ebtu": GraderConfig(
+                grader=EBTUTraceabilityGrader(model=model),
+                mapper=lambda data: {"traj": data},
+            ),
         }
 
     def compute_reward(self, workflow_task: WorkflowTask, workflow_output: WorkflowOutput) -> Tuple[float, bool]:
 
@@ -15,6 +15,10 @@ JUDGE_CONCURRENCY=10
 RM_WEIGHT=0.5
 PRESENTATION_QUALITY_WEIGHT=0.25
 GROUNDING_WEIGHT=0.25
+CGCV_WEIGHT=0.0                   # 不使用 CGCV，设为 0
+AUDIT_WEIGHT=0.0                  # 不使用 Audit，设为 0
+TRACEABILITY_WEIGHT=0.0           # 不使用 Traceability，设为 0
+EBTU_WEIGHT=0.0                   # 不使用 EBTU，设为 0
 
 # 训练参数配置
 NUM_REPEAT=4        # group size，每个query rollout NUM_REPEAT次
@@ -28,7 +32,13 @@ ENV_SERVICE_URL="http://127.0.0.1:8080"  # 环境服务地址
 # 主目录（需要更改）
 export AJET_ROOT="/mnt/data_cpfs/taoshuchang.tsc/deepresearch/AgentJet_new"
 
-NNODES=${WORLD_SIZE}
+# 单机调试配置（默认值）
+NNODES=${WORLD_SIZE:-1}
+GPUS_PER_NODE=8
+CURRENT_TIME=$(date "+%Y%m%d_%H%M%S")
+LOG_DIR="${AJET_ROOT}/logs/${PREFIX}"
+TRAIN_LOG="${LOG_DIR}/train_${SUFFIX}_${CURRENT_TIME}.log"
+mkdir -p ${LOG_DIR}
 
 # 涉密的配置（API_KEY以及模型、数据位置）从.env读取
 cd ${AJET_ROOT}
@@ -45,6 +55,9 @@ else
     echo -e "\033[31m警告: 找不到 .env 文件: $ENV_FILE\033[0m"
 fi
 
+export MODEL_PATH="/mnt/data_cpfs/taoshuchang.tsc/models/Qwen3-8B"
+
+
 #===============================================================================
 # 2. 动态生成配置文件 (从yaml template生成yaml)
 #===============================================================================
@@ -60,6 +73,10 @@ sed -e "s|{{SUFFIX}}|${SUFFIX}|g" \
     -e "s|{{RM_WEIGHT}}|${RM_WEIGHT}|g" \
     -e "s|{{PRESENTATION_QUALITY_WEIGHT}}|${PRESENTATION_QUALITY_WEIGHT}|g" \
     -e "s|{{GROUNDING_WEIGHT}}|${GROUNDING_WEIGHT}|g" \
+    -e "s|{{CGCV_WEIGHT}}|${CGCV_WEIGHT}|g" \
+    -e "s|{{AUDIT_WEIGHT}}|${AUDIT_WEIGHT}|g" \
+    -e "s|{{TRACEABILITY_WEIGHT}}|${TRACEABILITY_WEIGHT}|g" \
+    -e "s|{{EBTU_WEIGHT}}|${EBTU_WEIGHT}|g" \
     -e "s|{{OPENJUDGE_LLM}}|${OPENJUDGE_LLM}|g" \
     -e "s|{{RM_LLM}}|${RM_LLM}|g" \
     -e "s|{{JUDGE_CONCURRENCY}}|${JUDGE_CONCURRENCY}|g" \
@@ -75,7 +92,7 @@ sed -e "s|{{SUFFIX}}|${SUFFIX}|g" \
     ${AJET_ROOT}/${CONFIG_TEMPLATE} > ${CONFIG_FILE}
 
 echo "配置文件已生成: ${CONFIG_FILE}"
-echo "参数确认: RM=${RM_WEIGHT}, PresentationQuality=${PRESENTATION_QUALITY_WEIGHT}, Grounding=${GROUNDING_WEIGHT}, OpenJudge=${OPENJUDGE_LLM}, RM_LLM=${RM_LLM}"
+echo "参数确认: RM=${RM_WEIGHT}, PresentationQuality=${PRESENTATION_QUALITY_WEIGHT}, Grounding=${GROUNDING_WEIGHT}, CGCV=${CGCV_WEIGHT}, Audit=${AUDIT_WEIGHT}, Traceability=${TRACEABILITY_WEIGHT}, EBTU=${EBTU_WEIGHT}, OpenJudge=${OPENJUDGE_LLM}, RM_LLM=${RM_LLM}"
 
 
 #===============================================================================
@@ -119,15 +136,16 @@ export RAY_CLUSTER_MODE="multi_node"
 #===============================================================================
 # 6. 主流程
 #===============================================================================
-log "节点数: ${NNODES}, 每节点GPU数: ${GPUS_PER_NODE}"
-mkdir -p ${LOG_DIR}
-mkdir -p $(dirname ${CONFIG_FILE})
+log "单机调试模式: NNODES=${NNODES}, GPUS_PER_NODE=${GPUS_PER_NODE}"
 
 #===============================================================================
 #  6.1 Master 节点启动流程
 #===============================================================================
 # 启动训练任务（最核心）
+# 请注意只有单节点需要--with-ray 多节点应该删除
 python ajet/launcher.py \
     --conf ${CONFIG_FILE} \
+    --with-deepfinance \
+    --with-ray \
     --backbone="debug" \
     2>&1 | tee ${TRAIN_LOG}
@@ -4,11 +4,12 @@
 from .cgcv.grader import CGCVGrader
 from .audit.grader import AuditGrader
 from .traceability.grader import TraceabilityRewardGrader
+from .ebtu.grader import EBTUTraceabilityGrader
 # from .research_depth.grader import ResearchDepthGrader
 # from .research_breadth.grader import ResearchBreadthGrader
 
 # 以后添加了其他 grader 也可以加在这里
 # from .grounding.grader import GroundingGrader
 # from .research_breadth.grader import ResearchBreadthGrader
 # __all__ = ["PresentationQualityGrader", "GroundingGrader", "ResearchDepthGrader", "ResearchBreadthGrader"]
-__all__ = ["PresentationQualityGrader", "GroundingGrader", "CGCVGrader", "AuditGrader", "TraceabilityRewardGrader"]
+__all__ = ["PresentationQualityGrader", "GroundingGrader", "CGCVGrader", "AuditGrader", "TraceabilityRewardGrader", "EBTUTraceabilityGrader"]
@@ -184,11 +184,11 @@ def _compute_scores(self, obj: Dict[str, Any]) -> Tuple[float, str]:
         supported_count = verdict_counts["Supported"]
 
         # 优先使用模型输出的 score，如果有误则回退到手动计算
-        model_score = obj.get("integrity_score")
-        if isinstance(model_score, (float, int)) and 0.0 <= model_score <= 1.0:
-            final_score = float(model_score)
-        else:
-            final_score = supported_count / total_citations if total_citations > 0 else 0.0
+        # model_score = obj.get("integrity_score")
+        # if isinstance(model_score, (float, int)) and 0.0 <= model_score <= 1.0:
+        #     final_score = float(model_score)
+        # else:
+        final_score = supported_count / total_citations if total_citations > 0 else 0.0
 
         # 构建 Reason
         # 格式: Score: 0.80 | Total: 10 | Supp: 8, Over: 1, Hallu: 1 | Summary: ...
 
@@ -15,16 +15,102 @@ def extract_first_json_object(text: str) -> str | None:
         return None
     return m.group(0)
 
+
+def _repair_json(js: str) -> str:
+    """
+    尝试修复常见的JSON格式错误
+    1. 修复字符串中未转义的换行符
+    2. 修复trailing comma
+    3. 修复缺少的逗号
+    4. 修复不完整的JSON（截断）
+    """
+    # 1. 替换字符串值中的未转义换行符
+    # 这是最常见的问题：LLM在字符串中直接输出换行而非 \n
+    def escape_newlines_in_strings(s: str) -> str:
+        result = []
+        in_string = False
+        escape_next = False
+        i = 0
+        while i < len(s):
+            c = s[i]
+            if escape_next:
+                result.append(c)
+                escape_next = False
+            elif c == '\\':
+                result.append(c)
+                escape_next = True
+            elif c == '"':
+                result.append(c)
+                in_string = not in_string
+            elif in_string and c == '\n':
+                result.append('\\n')
+            elif in_string and c == '\r':
+                result.append('\\r')
+            elif in_string and c == '\t':
+                result.append('\\t')
+            else:
+                result.append(c)
+            i += 1
+        return ''.join(result)
+    
+    js = escape_newlines_in_strings(js)
+    
+    # 2. 移除trailing comma: ",}" -> "}" 和 ",]" -> "]"
+    js = re.sub(r',\s*}', '}', js)
+    js = re.sub(r',\s*]', ']', js)
+    
+    # 3. 尝试修复截断的JSON - 补全缺失的括号
+    # 统计括号数量
+    open_braces = js.count('{')
+    close_braces = js.count('}')
+    open_brackets = js.count('[')
+    close_brackets = js.count(']')
+    
+    # 如果括号不匹配，尝试补全
+    if open_braces > close_braces:
+        # 先关闭可能未闭合的字符串
+        # 检查最后是否在字符串中
+        in_string = False
+        escape_next = False
+        for c in js:
+            if escape_next:
+                escape_next = False
+            elif c == '\\':
+                escape_next = True
+            elif c == '"':
+                in_string = not in_string
+        if in_string:
+            js += '"'
+        
+        # 补全缺失的括号
+        js += ']' * (open_brackets - close_brackets)
+        js += '}' * (open_braces - close_braces)
+    
+    return js
+
+
 def strict_load_json(text: str) -> Tuple[Dict[str, Any] | None, str | None]:
     js = extract_first_json_object(text)
     if js is None:
         return None, "No JSON object found"
+    
+    # 第一次尝试：直接解析
     try:
         obj = json.loads(js)
         if not isinstance(obj, dict):
             return None, f"Root is not dict: {type(obj)}"
         return obj, None
-    except Exception as e:
+    except json.JSONDecodeError:
+        pass  # 继续尝试修复
+    
+    # 第二次尝试：修复后解析
+    try:
+        repaired = _repair_json(js)
+        obj = json.loads(repaired)
+        if not isinstance(obj, dict):
+            return None, f"Root is not dict: {type(obj)}"
+        return obj, None
+    except json.JSONDecodeError as e:
         return None, f"JSONDecodeError: {str(e)}"
 
 def validate_integrity_shape(obj: Dict[str, Any]) -> Tuple[Dict[str, Any] | None, str | None]: