10 lines (7 loc) · 367 Bytes

TinyVLA

Tiny Vision Language Action Model for Robot Control.

Introduction

This model is based on RT-2 model. But it is a very tiny one for robot control.
Original architecture is based on tiny but robust VLM(Vision Language Models) like MiniCPM-V2, TinyLLaVA, PaliGemma and etc.

Folder Structure

paligemma_based: PaliGemma based VLA model.