Comportamento esperado durante a maior parte do primeiro arranque:
from_pretrained— rede + disco + desserialização em CPU; a GPU pode ficar quase idle.- Só depois os tensores passam para CUDA (
pipe.to("cuda")) ou offload. - Com
--low-vram, o modelo não fica todo na VRAM; o uso pode parecer baixo.
O CLI mostra 1/2 — download + carregamento e 2/2 — inferência, e no stderr Passo 1/3 … Passo 3/3.
- 1.ª vez: descarga de vários GB → vários minutos são normais.
- Com cache HF (mesma máquina): o custo de rede desaparece; resta ler do disco + inferência (segundos a ~1 min típico, conforme GPU).
Cada comando text2d é um processo novo — o pipeline volta a carregar-se do disco (não fica residente entre comandos).
O índice cu121 do PyTorch pode não oferecer torchvision compatível com Python 3.13. setup.sh e installer.py usam pip install torch torchvision (PyPI) quando detectam Python ≥ 3.13 e GPU NVIDIA.
pip install sdnqpip install -U diffusers--low-vram- Reduzir
--widthe--height(ex. 512) - Outro modelo via
TEXT2D_MODEL_ID(se compatível)
O subcomando aceita -v / --verbose. Também: text2d -v generate "...".
- Hub: confirma no model card Disty0 se há passos extra (aceitar termos, login
huggingface-cli). - Termos do checkpoint: o metadata HF associa este repositório a FLUX Non-Commercial — não é o mesmo regime que o modelo oficial Apache 2.0 (black-forest-labs/FLUX.2-klein-4B).
- Uso comercial: para reduzir ambiguidade jurídica, usa o oficial com mais VRAM:
export TEXT2D_MODEL_ID=black-forest-labs/FLUX.2-klein-4B text2d generate "prompt" ...
- Resumo do monorepo: GameDev/README.md — secção Licenças.