Simplify data card documentation (#75)

Copilot · anxiangsir · web-flow · commit 5f843a7cbe8b · 2026-02-05T13:30:47.000+08:00
* Initial plan

* Update data_card.md with simplified pretraining dataset table and annotation info

Co-authored-by: anxiangsir &lt;31175974+anxiangsir@users.noreply.github.com&gt;

* Improve readability of Image Data Annotation section

Co-authored-by: anxiangsir &lt;31175974+anxiangsir@users.noreply.github.com&gt;

* Fix numerical consistency in annotation section

Co-authored-by: anxiangsir &lt;31175974+anxiangsir@users.noreply.github.com&gt;

* Simplify data_card.md by removing detailed content

Co-authored-by: anxiangsir &lt;31175974+anxiangsir@users.noreply.github.com&gt;

---------

Co-authored-by: copilot-swe-agent[bot] &lt;198982749+Copilot@users.noreply.github.com&gt;
Co-authored-by: anxiangsir &lt;31175974+anxiangsir@users.noreply.github.com&gt;
diff --git a/docs/data_card.md b/docs/data_card.md
@@ -1,136 +1,37 @@
 # Data Card: OneVision Encoder Training Data
 
-> **📦 Data Availability Notice:** The training data requires approximately **200TB** of storage. We are currently looking for suitable storage solutions. If you need access to the data immediately, please contact [anxiangsir@outlook.com](mailto:anxiangsir@outlook.com).
+## Overview
 
+This document describes the datasets used for training OneVision Encoder. The pretraining corpus combines large-scale image and video datasets for unified visual representation learning.
 
-## Overview
+## OneVision-Encoder Pretraining Dataset
 
-This document describes the datasets used for training OneVision Encoder. The training data consists of both image and video datasets.
+| Source | Samples | Type | Modality | Temporal | Curation |
+|--------|---------|------|----------|----------|----------|
+| **LAION-400M** | 250M | WebImages | Image | -- | Yes |
+| **COYO-700M** | 400M | WebImages | Image | -- | Yes |
+| **OBELICS** | 15M | Documents | Image | -- | Yes |
+| **Zero250M** | 15M | CuratedImages | Image | -- | Yes |
+| **ImageNet-21K** | 14M | Images | Image | -- | Yes |
+| **HowTo100M** | 50M | ExoVideo | Video | Short | No |
+| **Panda-70M** | 50M | ExoVideo | Video | Long | Yes |
+| **Kinetics-710** | 658K | ActionVideo | Video | Short | Yes |
+| **SSV2** | 221K | ActionVideo | Video | Short | Yes |
 
-## Dataset Summary
+### Dataset Summary
 
 | Category | Total Samples |
 |----------|---------------|
 | **Image** | ~694M |
 | **Video** | ~100M+ |
 | **Total** | ~794M+ |
 
----
-
-## Image Datasets
-
-| Dataset | Samples | Description |
-|---------|---------|-------------|
-| **LAION-400M** | 250M | Large-scale image-text dataset curated from Common Crawl, filtered for high-quality image-text pairs |
-| **COYO-700M** | 400M | Comprehensive image-text dataset with diverse web-sourced content |
-| **OBELICS** | 15M | Interleaved image-text documents for multimodal understanding |
-| **Zero250M** | 15M | High-quality image dataset for visual representation learning |
-| **ImageNet-21K** | 14M | Large-scale hierarchical image dataset covering 21,841 synsets |
-
-### Image Dataset Details
-
-#### LAION-400M (250M samples used)
-- **Source**: Common Crawl web data
-- **Content**: Diverse web images with associated alt-text captions
-- **Usage**: Pre-training for general visual understanding
-
-#### COYO-700M (400M samples used)
-- **Source**: Web-crawled image-text pairs
-- **Content**: Large-scale diverse visual content
-- **Usage**: Pre-training for broad visual coverage
-
-#### OBELICS (15M samples)
-- **Source**: Curated multimodal documents
-- **Content**: Interleaved image-text documents
-- **Usage**: Learning from contextual image-text relationships
-
-#### Zero250M (15M samples used)
-- **Source**: Curated image collection
-- **Content**: High-quality images for representation learning
-- **Usage**: Visual representation pre-training
-
-#### ImageNet-21K (14M samples)
-- **Source**: ImageNet project
-- **Content**: Hierarchically organized images across 21,841 categories
-- **Usage**: Fine-grained visual recognition pre-training
-
----
-
-## Video Datasets
-
-| Dataset | Samples | Description |
-|---------|---------|-------------|
-| **HowTo100M** | 50M | Instructional videos with narrated activities |
-| **Panda-70M** | 50M | Large-scale video-text dataset with high-quality captions |
-| **Kinetics-710** | - | Human action recognition benchmark (for evaluation/fine-tuning) |
-| **Something-Something V2 (SSv2)** | - | Fine-grained temporal reasoning benchmark (for evaluation/fine-tuning) |
-
-### Video Dataset Details
-
-#### HowTo100M
-- **Source**: YouTube instructional videos
-- **Content**: How-to videos with automatic speech recognition transcripts
-- **Usage**: Learning temporal dynamics and action understanding
-
-#### Panda-70M
-- **Source**: Curated video-text pairs
-- **Content**: High-quality video clips with detailed captions
-- **Usage**: Video-language alignment pre-training
-
-#### Kinetics-710 (K710)
-- **Source**: YouTube videos of human actions
-- **Content**: Human action video clips
-- **Usage**: Action recognition evaluation and fine-tuning
-
-#### Something-Something V2 (SSv2)
-- **Source**: Crowdsourced human actions
-- **Content**: Fine-grained hand-object interactions
-- **Usage**: Temporal reasoning evaluation and fine-tuning
-
----
-
-
-## Data Licensing
-
-Please refer to the original dataset licenses for usage terms:
-
-- **LAION-400M**: CC-BY 4.0
-- **COYO-700M**: CC-BY 4.0
-- **OBELICS**: Various (see original source)
-- **ImageNet-21K**: ImageNet License
-- **HowTo100M**: Various (YouTube content)
-- **Panda-70M**: Various (see original source)
-- **Kinetics-710**: Various (YouTube content)
-- **Something-Something V2**: Non-commercial research use
-
----
-
-## Citation
-
-If you use this data configuration, please cite the original dataset papers:
+## Image Data Annotation
 
-```bibtex
-@article{schuhmann2021laion,
-  title={LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs},
-  author={Schuhmann, Christoph and others},
-  year={2021}
-}
+For image data, we primarily process LAION-400M and COYO-700M with the following pipeline:
 
-@article{kakaobrain2022coyo-700m,
-  title={COYO-700M: Image-Text Pair Dataset},
-  author={Kakao Brain},
-  year={2022}
-}
+**Deduplication:** We employ a Union-Find algorithm to strictly deduplicate the dataset.
 
-@article{miech19howto100m,
-  title={HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips},
-  author={Miech, Antoine and others},
-  year={2019}
-}
+**Clustering and Multi-label Annotation:** We utilize the metaclip-h14-fullcc2.5b model to extract image features and cluster all images into 2 million classes. Based on this clustering, each image sample is annotated with the nearest Top-10 class centers as its multi-label supervision signal.
 
-@article{chen2024panda70m,
-  title={Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers},
-  author={Chen, Tsai-Shien and others},
-  year={2024}
-}
-```
+**OCR-based Fine-grained Tagging:** Furthermore, we incorporate the OBELICS and Zero250M datasets. We utilize PaddleOCR to recognize text within images and perform word segmentation on the recognized content; the resulting vocabulary is used as multi-labels to construct a supervision signal containing exactly 100 fine-grained tags per image.