fix: remove hardcoded internal paths for open source release

Luodian · Luodian · commit e7a1511a09dd · 2025-12-25T00:39:23.000+08:00
training/train.py:
- Change --model_weight default from internal path to None

dataloader/hevc_feature_decoder*.py:
- Change HEVC_FEAT_DECODER fallback to 'hevc' (expects PATH)

model_factory/vit_*.py:
- vit_clip.py: Use openai/clip-vit-* HuggingFace IDs
- vit_siglip.py: Use google/siglip-* HuggingFace IDs
- vit_siglip2.py: Use google/siglip2-* HuggingFace IDs
- vit_dinov2.py: Use facebook/dinov2-* HuggingFace IDs
- vit_dinov3.py: Require explicit ckpt (no public model)
- vit_metaclip.py: Use facebook/metaclip-* HuggingFace IDs
diff --git a/dataloader/hevc_feature_decoder.py b/dataloader/hevc_feature_decoder.py
@@ -130,7 +130,7 @@ def viz_residual(res: np.ndarray, signed: bool = True) -> np.ndarray:
         raise ValueError(f"Unexpected residual shape for viz: {res.shape}")
     return vis
 
-_HEVC_FEAT_DECODER = os.environ.get('HEVC_FEAT_DECODER', '/video_vit/yunyaoyan/umt/umt_split/decoder/bin/hevc')
+_HEVC_FEAT_DECODER = os.environ.get('HEVC_FEAT_DECODER', 'hevc')
 
 _FFMPEG_SUPPORTED_DECODERS = [ext.encode() for ext in [
     ".mp4", ".mkv", ".mov", ".hevc", ".h265", ".265"
diff --git a/dataloader/hevc_feature_decoder_mv.py b/dataloader/hevc_feature_decoder_mv.py
@@ -229,7 +229,7 @@ class RobustHevcStream:
     def __init__(self, video, parallel=1, hevc_bin=None):
         self.video = video
         self.parallel = str(parallel)
-        self.hevc_bin = hevc_bin or os.environ.get('HEVC_FEAT_DECODER', '/video_vit/yunyaoyan/umt/umt_split/decoder/bin/hevc')
+        self.hevc_bin = hevc_bin or os.environ.get('HEVC_FEAT_DECODER', 'hevc')
         if not (os.path.isfile(self.hevc_bin) and os.access(self.hevc_bin, os.X_OK)):
             raise FileNotFoundError(f"HEVC binary not found/executable: {self.hevc_bin}")
         vinfo, _ = ffprobe(video)
@@ -427,7 +427,7 @@ def viz_residual(res: np.ndarray, signed: bool = True) -> np.ndarray:
         raise ValueError(f"Unexpected residual shape for viz: {res.shape}")
     return vis
 
-_HEVC_FEAT_DECODER = os.environ.get('HEVC_FEAT_DECODER', '/video_vit/yunyaoyan/umt/umt_split/decoder/bin/hevc')
+_HEVC_FEAT_DECODER = os.environ.get('HEVC_FEAT_DECODER', 'hevc')
 
 _FFMPEG_SUPPORTED_DECODERS = [ext.encode() for ext in [
     ".mp4", ".mkv", ".mov", ".hevc", ".h265", ".265"
diff --git a/model_factory/vit_clip.py b/model_factory/vit_clip.py
@@ -59,7 +59,7 @@ def clip_vit_base_patch16(pretrained: bool = False, **kwargs):
     """
     model = CLIP(
         # 如需使用本地 ckpt，设置为本地路径；否则传入默认/自定义的 HF 路径
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/openai/clip-vit-base-patch16"),
+        ckpt=kwargs.get("ckpt", "openai/clip-vit-base-patch16"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
@@ -80,7 +80,7 @@ def clip_vit_large_patch14(pretrained: bool = False, **kwargs):
     """
     model = CLIP(
         # 如需使用本地 ckpt，设置为本地路径；否则传入默认/自定义的 HF 路径
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/openai/clip-vit-large-patch14"),
+        ckpt=kwargs.get("ckpt", "openai/clip-vit-large-patch14"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
diff --git a/model_factory/vit_dinov2.py b/model_factory/vit_dinov2.py
@@ -7,9 +7,9 @@
 class Dinov2(nn.Module):
     def __init__(
         self,
-        ckpt: str = "/video_vit/pretrain_models/dinov2-base",
+        ckpt: str = "facebook/dinov2-base",
         device: str = "cuda" if torch.cuda.is_available() else "cpu",
-        local_files_only: bool = True,
+        local_files_only: bool = False,
     ):
         """
         DINOv2 视觉 Transformer 封装（forward 返回去掉 CLS 的 patch tokens）
@@ -51,18 +51,18 @@ def dinov2_base(pretrained: bool = False, **kwargs):
         **kwargs: 透传给 Dinov2（ckpt, device, local_files_only）
     """
     model = Dinov2(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/dinov2-base"),
+        ckpt=kwargs.get("ckpt", "facebook/dinov2-base"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
-        local_files_only=kwargs.get("local_files_only", True),
+        local_files_only=kwargs.get("local_files_only", False),
     )
     return model
 
 @register_model
 def dinov2_large(pretrained: bool = False, **kwargs):
     model = Dinov2(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/dinov2-large"),
+        ckpt=kwargs.get("ckpt", "facebook/dinov2-large"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
-        local_files_only=kwargs.get("local_files_only", True),
+        local_files_only=kwargs.get("local_files_only", False),
     )
     return model
 
diff --git a/model_factory/vit_dinov3.py b/model_factory/vit_dinov3.py
@@ -49,17 +49,23 @@ def dinov3_base(pretrained=False, **kwargs):
     Returns:
         Dinov3: An instance of Dinov3.
     """
+    ckpt = kwargs.get("ckpt")
+    if ckpt is None:
+        raise ValueError("DINOv3 requires a checkpoint path via ckpt=... argument")
     model = Dinov3(
-        ckpt="/video_vit/pretrain_models/dinov3-vitb16-pretrain-lvd1689m",
+        ckpt=ckpt,
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
 
 
 @register_model
 def dinov3_large(pretrained=False, **kwargs):
+    ckpt = kwargs.get("ckpt")
+    if ckpt is None:
+        raise ValueError("DINOv3 requires a checkpoint path via ckpt=... argument")
     model = Dinov3(
-        ckpt="/video_vit/pretrain_models/dinov3-vitl16-pretrain-lvd1689m",
+        ckpt=ckpt,
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
@@ -77,8 +83,11 @@ def dinov3_giant(pretrained=False, **kwargs):
     Returns:
         Dinov3: An instance of Dinov3 with giant variant.
     """
+    ckpt = kwargs.get("ckpt")
+    if ckpt is None:
+        raise ValueError("DINOv3 requires a checkpoint path via ckpt=... argument")
     model = Dinov3(
-        ckpt="/video_vit/pretrain_models/dinov3-giant",
+        ckpt=ckpt,
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
diff --git a/model_factory/vit_metaclip.py b/model_factory/vit_metaclip.py
@@ -25,15 +25,15 @@ def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
 @register_model
 def metaclip_base16_fullcc(pretrained: bool = False, **kwargs):
     model = MetaClip(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/metaclip-b16-fullcc2.5b/"),
+        ckpt=kwargs.get("ckpt", "facebook/metaclip-b16-fullcc2.5b"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
 
 @register_model
 def metaclip_large14_fullcc(pretrained: bool = False, **kwargs):
     model = MetaClip(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/metaclip-l14-fullcc2.5b/"),
+        ckpt=kwargs.get("ckpt", "facebook/metaclip-l14-fullcc2.5b"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
@@ -42,7 +42,7 @@ def metaclip_large14_fullcc(pretrained: bool = False, **kwargs):
 @register_model
 def metaclip2_large14(pretrained: bool = False, **kwargs):
     model = MetaClip(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/metaclip-2-worldwide-l14"),
+        ckpt=kwargs.get("ckpt", "facebook/metaclip-l14-fullcc2.5b"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
diff --git a/model_factory/vit_siglip.py b/model_factory/vit_siglip.py
@@ -33,7 +33,7 @@ def siglip_base(pretrained=False, **kwargs):
     Register Siglip without CLS token for timm.
     """
     model = Siglip(
-        ckpt="/video_vit/pretrain_models/siglip-base-patch16-224",
+        ckpt=kwargs.get("ckpt", "google/siglip-base-patch16-224"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
@@ -42,7 +42,7 @@ def siglip_base(pretrained=False, **kwargs):
 @register_model
 def siglip_large_patch16_256(pretrained=False, **kwargs):
     model = Siglip(
-        ckpt="/video_vit/pretrain_models/siglip-large-patch16-256",
+        ckpt=kwargs.get("ckpt", "google/siglip-large-patch16-256"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
diff --git a/model_factory/vit_siglip2.py b/model_factory/vit_siglip2.py
@@ -182,7 +182,7 @@ def siglip2_base(pretrained=False, **kwargs):
         Siglip2: An instance of Siglip2.
     """
     model = Siglip2(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/siglip2-base-patch16-224"),
+        ckpt=kwargs.get("ckpt", "google/siglip2-base-patch16-224"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
@@ -202,7 +202,7 @@ def siglip2_large_patch16_256(pretrained=False, **kwargs):
         Siglip2: An instance of Siglip2.
     """
     model = Siglip2(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/siglip2-large-patch16-256"),
+        ckpt=kwargs.get("ckpt", "google/siglip2-large-patch16-256"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
@@ -222,7 +222,7 @@ def siglip2_so400m_patch16_naflex(pretrained=False, **kwargs):
         Siglip2Naflex: An instance of Siglip2Naflex.
     """
     model = Siglip2Naflex(
-        ckpt=kwargs.get("ckpt", "/video_vit/pretrain_models/siglip2-so400m-patch16-naflex"),
+        ckpt=kwargs.get("ckpt", "google/siglip2-so400m-patch16-naflex"),
         device=kwargs.get("device", "cuda" if torch.cuda.is_available() else "cpu"),
     )
     return model
diff --git a/training/train.py b/training/train.py
@@ -69,8 +69,8 @@
 # Model / 模型
 # ---------------------------
 parser.add_argument("--model_name", default="pretrain_encoder_small_patch16_224_v10_12_rms_unmask_with_head", help="Backbone model name / 主干模型名称")
-parser.add_argument("--model_weight", default="/vlm/xiangan/VideoMLCD/checkpoints/llava_vit_s_16.py/00190000/backbone.pt",
-                    help="Path to pretrained weights or None / 预训练权重路径，或 None")
+parser.add_argument("--model_weight", default=None,
+                    help="Path to pretrained weights, HuggingFace model ID, or None")
 parser.add_argument("--embedding_size", type=int, default=384, help="Embedding dimension of the head / 头部嵌入维度")
 parser.add_argument("--gradient_checkpoint", type=int, default=0, help="Enable gradient checkpointing (0/1) / 是否启用梯度检查点（节省显存）")
 parser.add_argument("--mask", type=int, default=0, help="Enable mask-related training (0/1) / 是否启用 mask 相关训练")