Skip to content

feat/train-embeddings#246

Merged
voorhs merged 31 commits intodevfrom
feat/train-embeddings
Aug 25, 2025
Merged

feat/train-embeddings#246
voorhs merged 31 commits intodevfrom
feat/train-embeddings

Conversation

@k0lenk4
Copy link
Copy Markdown
Collaborator

@k0lenk4 k0lenk4 commented Jul 3, 2025

fix #256

@k0lenk4 k0lenk4 requested a review from voorhs July 3, 2025 07:58
Comment thread autointent/_wrappers/embedder.py Outdated
similarity_fn_name=self.config.similarity_fn_name,
trust_remote_code=self.config.trust_remote_code,
)
def train(self, utterances: list[str], labels: list[int], **kwargs) -> None:
Copy link
Copy Markdown
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Наверное надо отдельный модуль делать как BertScorer, возможно надо сначала довнести изменения из #231

Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

не, мне кажется что эта функциональность пригодится не только внутри какого-то одного модуля, а еще много где, поэтому нет ничего страшного чтобы привязать ее к нашей базовой обертке для эмбедингов

Copy link
Copy Markdown
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Пока трудно понять, тк он пока не используется нигде

Copy link
Copy Markdown
Collaborator

@voorhs voorhs left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

на данный момент все ок! внеси правки, после этого можешь добавить автотест для твоего метода (для вдохновения смотри https://github.com/deeppavlov/AutoIntent/blob/dev/tests/modules/scoring/test_bert.py)

Comment thread autointent/_wrappers/embedder.py Outdated
Comment thread autointent/_wrappers/embedder.py Outdated
Copy link
Copy Markdown
Collaborator

@voorhs voorhs left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

в целом все написал в комментах, надо это исправить

чтобы исправить большинство ошибок тайпинга (они касаются не твоего кода), подтяни dev в свою ветку, в dev произошло много изменений (возможно придется разрешить конфликты)

чтобы найти ошибки линтера в терминале введи make lint

Comment thread autointent/_wrappers/embedder.py Outdated
Comment thread autointent/_wrappers/embedder.py Outdated
Comment thread autointent/configs/_transformers.py Outdated
@k0lenk4 k0lenk4 requested a review from voorhs August 3, 2025 06:59
Copy link
Copy Markdown
Collaborator

@voorhs voorhs left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

круто что нет ошибок тайпинга и линтера) работаем дальше! отслеживание переобучения и early stopping все еще жду

Comment thread .gitignore
@k0lenk4 k0lenk4 requested a review from voorhs August 12, 2025 10:22
Copy link
Copy Markdown
Collaborator

@voorhs voorhs left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

ура ура ура

fp16 только отключи по дефолту

@voorhs
Copy link
Copy Markdown
Collaborator

voorhs commented Aug 19, 2025

Я сейчас добавил кучу тестов, надо отдебажить их и/или код эмбедера

@voorhs voorhs mentioned this pull request Aug 22, 2025
@voorhs voorhs merged commit ed82eae into dev Aug 25, 2025
22 checks passed
@voorhs voorhs deleted the feat/train-embeddings branch August 25, 2025 10:37
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

Значение freeze=False не учитывается после Pipeline.load(), модель тянется с huggingface

3 participants