DigitOCR

Небольшой OCR-проект на C++ для распознавания рукописных цифр.

Идея проекта была не только в том, чтобы получить рабочий классификатор на MNIST, но и в том, чтобы пройти несколько уровней реализации: от простого baseline'а до своей нейросети и более быстрой, уже более практичной версии MLP.

Сейчас проект состоит из нескольких baseline'ов, каждый из которых решает свою задачу:

KNN — как простой и сильный baseline;
scalar neural network + autodiff — как educational-реализация, чтобы понять backprop изнутри;
fast MLP — как более практичная и быстрая нейросеть.

Что есть в проекте

загрузка MNIST;
чтение BMP-изображений;
preprocessing для реальных картинок;
handcrafted features для классической модели;
несколько baseline'ов;
логирование и сравнение результатов экспериментов.

Baselines

1. KNN

Первый и самый простой baseline.

Для KNN используются признаки, собранные из:

raw pixels;
zoning features;
projection features.

Зачем это полезно:

чистая точка отсчёта;
быстрый способ проверить pipeline;
baseline, с которым можно сравнивать нейросети.

По текущим экспериментам KNN показывает очень хорошую accuracy и остаётся сильным ориентиром для остальных моделей.

2. Scalar NN + autodiff

Это более учебная часть проекта.

Здесь цель была не в скорости, а в том, чтобы руками пройти весь путь:

вычислительный граф;
forward pass;
backward pass;
градиенты;
обновление параметров.

Эта реализация не самая быстрая и не самая практичная, но хорошо показывает, что происходят внутри NN и backpropagation.

Её главный минус — производительность. На реальном обучении быстро становится видно, что scalar-граф и большое количество мелких операций создают слишком большой overhead по времени и памяти.

3. Fast MLP

Более практичный neural baseline.

Здесь используется более прямой и быстрый подход:

плотные массивы (2D to 1D);
mini-batch training;
ручной forward/backward для dense-слоёв;
без scalar tape на каждую операцию.

Текущие результаты

KNN

На последних прогонах KNN показывал около 96.8% accuracy на evaluation по 500 test samples.

Для baseline без нейросети это очень сильный результат.

Fast MLP

Первые рабочие запуски fast MLP выглядели так:

trainLimit=2000, testLimit=500, lr=0.05, batch=64, epochs=5
→ 71.8%

После этого начался более полноценный подбор гиперпараметров.

Лучшие результаты из текущих экспериментов:

trainLimit	testLimit	lr	batch	epochs	accuracy
5000	500	0.02	64	10	86.6%
5000	500	0.01	64	10	86.8%
5000	500	0.03	64	10	93.0%
5000	500	0.02	128	20	91.2%
5000	500	0.04	128	10	91.6%
5000	500	0.02	32	10	92.4%

Пока это ещё не финальные результаты на полном test set, а промежуточные результаты для подбора hyperparameters.

Что уже удалось понять по экспериментам

fast MLP действительно работает и обучается корректно;
batch size сильно влияет на поведение модели;
слишком большой batch при фиксированном числе эпох делает меньше gradient descent update steps и может обучаться хуже;
диапазон batch = 32..64 и lr ≈ 0.02..0.03 пока выглядит наиболее promising.

Сейчас лучший найденный setup для fast MLP — lr=0.03, batch=64, epochs=10.

Структура проекта

app/ — CLI и общий orchestration-код;
core/ — базовые структуры, например ImageMatrix;
data/ — загрузка MNIST;
io/ — чтение и запись BMP;
preprocess/ — preprocessing и выделение цифр;
baselines/knn/ — KNN и handcrafted features;
baselines/neural_network/ — scalar/autodiff NN;
baselines/nn_mlp_fast/ — fast MLP;
test/ — тесты и проверки.

Сборка

cmake -S . -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j
./build/ocr_engine

or

make clean-run

Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
archive		archive
data		data
include		include
results		results
src		src
test		test
.gitignore		.gitignore
CMakeLists.txt		CMakeLists.txt
Makefile		Makefile
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DigitOCR

Что есть в проекте

Baselines

1. KNN

2. Scalar NN + autodiff

3. Fast MLP

Текущие результаты

KNN

Fast MLP

Что уже удалось понять по экспериментам

Структура проекта

Сборка

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DigitOCR

Что есть в проекте

Baselines

1. KNN

2. Scalar NN + autodiff

3. Fast MLP

Текущие результаты

KNN

Fast MLP

Что уже удалось понять по экспериментам

Структура проекта

Сборка

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages