Multilingual Tokenizer

This repository is used to extend a bilingual tokenizer to a multilingual one by integrating text corpora from multiple Indian languages. It includes a complete pipeline to download, clean, merge, and prepare datasets from Sangraha and Wikipedia. The pipeline also supports tokenizer training and model initialization for multilingual NLP tasks.

📁 Directory Structure

.
├── ai4bharat_sangraha/
│   ├── download_data.sh          # Downloads Sangraha corpus
│   └── sangraha_data/            # Contains downloaded Sangraha `.parquet` files
│
├── wiki_dump/
│   ├── download_wikidump.sh      # Downloads Wikipedia dumps in text form
│   ├── covert_to_parquet.py      # Converts raw Wiki text into `.parquet` format
│   └── wiki_parquet/             # Contains processed Wiki `.parquet` files
│
├── training_data/                # Output directory for cleaned and merged training data
│   └── all_languages_merged.parquet  # Final combined corpus
│
├── merge_training_data.py        # Filters and merges Sangraha + Wiki dumps into cleaned `.parquet` files
├── train_tokenizer.py            # Trains a tokenizer on the final text corpus
├── initialize_model.py           # Initializes a model using the trained tokenizer
├── run_pipeline.sh               # Main script to run the full pipeline
└── README.md                     # Project documentation (this file)

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
Data		Data
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
enviroment.yaml		enviroment.yaml
initialize_model.py		initialize_model.py
merge_training_data.py		merge_training_data.py
train_tokenizer.py		train_tokenizer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Multilingual Tokenizer

📁 Directory Structure

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Multilingual Tokenizer

📁 Directory Structure

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages