Name	Name	Last commit message	Last commit date
parent directory ..
audio	audio
image	image
interleaved	interleaved
math	math
slurm	slurm
synthetic	synthetic
text	text
video	video
README.md	README.md
quickstart.py	quickstart.py

Name

Last commit message

Last commit date

audio

NeMo Curator Tutorials

Hands-on tutorials for curating data across all modalities with NeMo Curator. Complete working examples with detailed explanations.

Quick Start

New to NeMo Curator? Start with the Getting Started Guide or try the quickstart.py example to understand core concepts.

Tutorials by Modality

Modality	Description	Key Tutorials
Text	Natural language processing and curation	Deduplication, Classification, Quality Assessment, Tokenization
Image	Computer vision and image processing	Aesthetic Classification, NSFW Detection, Deduplication
Video	Video processing and analysis	Clipping, Frame Extraction, Filtering
Audio	Speech and audio data curation	FLEURS Dataset Processing
Interleaved	Multimodal (text + image) data curation	Getting Started, PDF Extraction Pipeline (Nemotron-Parse)

Production Recipes

Complete, production-grade pipelines built on NeMo Curator:

Recipe	Description	Key Components
Nemotron-CC • SDG tutorial (in-repo)	Curate Common Crawl snapshots into an LLM-ready dataset, reproducing the Nemotron-CC datasets	`CommonCrawlDownloadExtractStage` • Language ID & Filtering • Exact/Fuzzy/Substring Dedup • Ensemble Quality Classification (1 fasttext + 2 FineWeb classifiers) • Synthetic Data Generation (4 tasks)

Core Concepts Example

The quickstart.py demonstrates NeMo Curator's foundational architecture:

Task: Define data processing objectives
ProcessingStage: Individual processing steps
Pipeline: Orchestrate multiple stages

Documentation Links

Category	Links
Getting Started	Installation • Core Concepts
Modality Guides	Text Curation • Image Curation • Video Curation
Advanced	Custom Pipelines • Execution Backends • API Reference

Support

Documentation: Main Docs • GitHub Discussions

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

README.md

NeMo Curator Tutorials

Quick Start

Tutorials by Modality

Production Recipes

Core Concepts Example

Documentation Links

Support

Uh oh!

FilesExpand file tree

tutorials

Directory actions

More options

Directory actions

More options

Latest commit

History

tutorials

Folders and files

parent directory

README.md

NeMo Curator Tutorials

Quick Start

Tutorials by Modality

Production Recipes

Core Concepts Example

Documentation Links

Support