Este documento muestra la estructura completa de la documentación del proyecto para navegación rápida.
demo-ray-serving/
│
├── 📘 README.md ← README PRINCIPAL
│ ├── Descripción general del proyecto
│ ├── Comparación de arquitecturas
│ ├── Guía de inicio rápido
│ └── Referencias a todos los módulos
│
├── 📂 training/ ← MÓDULO DE ENTRENAMIENTO
│ └── 📘 README.md
│ ├── Entrenamiento distribuido con Ray Train
│ ├── Descarga de datasets de ventas
│ ├── Exportación a ONNX
│ └── Pipeline completo de training
│
├── 📂 profit/ ← MÓDULOS DE PRODUCCIÓN
│ │
│ ├── 📘 README.md ← Guía de módulos de producción
│ │ ├── Comparación detallada de arquitecturas
│ │ ├── Métricas de performance
│ │ └── Guía de decisión de arquitectura
│ │
│ ├── 📂 ray/ ← Ray Serve Puro
│ │ └── 📘 README.md
│ │ ├── Arquitectura y componentes
│ │ ├── Despliegue en Kubernetes
│ │ ├── Publicación en GCP
│ │ └── API endpoints y ejemplos
│ │
│ ├── 📂 triton/ ← Triton Inference Server
│ │ └── 📘 README.md
│ │ ├── Pipeline de ensemble
│ │ ├── Configuración de modelos
│ │ ├── Testing y validación
│ │ └── Monitoreo con Prometheus
│ │
│ ├── 📂 ray-triton-separados/ ← Ray + Triton (Microservicios)
│ │ └── 📘 README.md
│ │ ├── Arquitectura de seguridad
│ │ ├── Docker Compose setup
│ │ ├── Comunicación entre servicios
│ │ └── Endpoints y API Gateway
│ │
│ └── 📂 ray+triton-combinados/ ← Ray + Triton (Contenedor único)
│ └── 📘 README.md
│ ├── Configuración combinada
│ ├── Optimización de latencia
│ ├── Despliegue en Kubernetes
│ └── Troubleshooting específico
│
└── 📂 examples/ ← EJEMPLOS DE APRENDIZAJE
└── 📘 README.md
├── Tutorial paso a paso
├── app1.py: Servicio simple
├── app2.py: Múltiples deployments
└── app3.py: FastAPI integration
- Empieza con: README.md - Visión general
- Aprende con: examples/README.md
- Entrena modelo: training/README.md
- Explora: profit/README.md - Comparación de arquitecturas
- Entrenar modelo: training/README.md
- Comparar opciones: profit/README.md
- Elegir arquitectura según caso de uso
- Seguir README específico del módulo elegido
- Revisar: README.md - Requisitos y setup
- Entrenar modelo (si necesario): training/README.md
- Comparar: profit/README.md - Métricas y decisiones
- Implementar:
- Desarrollo: serving/3-ray-triton-microservices/
- Producción: Ver README específico según necesidades
- ✅ Descripción del proyecto completo
- ✅ Tabla comparativa de arquitecturas
- ✅ Guía de decisión (¿Cuál elegir?)
- ✅ Inicio rápido para cada módulo (incluye training)
- ✅ Troubleshooting general
- ✅ Recursos y referencias
- ✅ Entrenamiento distribuido con Ray Train
- ✅ Descarga de datasets de ventas (Excel BI Analytics)
- ✅ Configuración y parámetros
- ✅ Uso básico y avanzado
- ✅ Exportación a ONNX
- ✅ Pipeline completo
- ✅ Troubleshooting de training
- ✅ Descripción del modelo de negocio
- ✅ Comparación detallada de 4 arquitecturas
- ✅ Métricas de performance estimadas
- ✅ Guía de decisión por caso de uso
- ✅ Formato de datos común
- ✅ Troubleshooting específico de profit
- ✅ Arquitectura y flujo de datos
- ✅ Componentes principales (serve.py, schema.py)
- ✅ Preprocesamiento detallado
- ✅ Despliegue con Docker y Kubernetes
- ✅ Publicación en GCP (Artifact Registry y Container Registry)
- ✅ Endpoints API con ejemplos curl
- ✅ Troubleshooting de GCP y permisos
- ✅ Arquitectura de ensemble (Python + ONNX)
- ✅ Estructura del model_repository
- ✅ Configuración rápida con Docker
- ✅ Testing individual y completo
- ✅ Despliegue en Kubernetes
- ✅ Personalización de preprocesamiento
- ✅ Monitoreo con métricas Prometheus
- ✅ Arquitectura de microservicios
- ✅ Modelo de seguridad (Triton interno)
- ✅ Docker Compose setup completo
- ✅ Variables de entorno
- ✅ Preprocesamiento en Ray (local)
- ✅ Comunicación Ray ↔ Triton
- ✅ Testing con curl y Python
- ✅ Despliegue en Kubernetes
- ✅ Arquitectura de contenedor único
- ✅ Configuración combinada
- ✅ Dockerfile con Triton embebido
- ✅ Optimización de latencia
- ✅ Despliegue en Kind/Kubernetes
- ✅ Comandos todo-en-uno
- ✅ Limpieza de recursos Docker
- ✅ Tutorial paso a paso
- ✅ app1.py: Servicio básico (Faker)
- ✅ app2.py: Múltiples deployments comunicándose
- ✅ app3.py: FastAPI con Pydantic
- ✅ Conceptos clave de Ray Serve
- ✅ Comandos de ejecución
1. README.md (Sección "Conceptos Clave")
↓
2. examples/README.md
↓
3. Ejecutar app1.py, app2.py, app3.py
↓
4. serving/1-ray-serve/README.md (Caso real)
1. README.md (Visión general)
↓
2. profit/README.md (Comparar arquitecturas)
↓
3. Decidir arquitectura según caso de uso
↓
4. README del módulo específico
↓
5. Implementar y desplegar
1. README del módulo específico (sección Troubleshooting)
↓
2. profit/README.md (Troubleshooting común)
↓
3. README.md principal (Problemas generales)
↓
4. Logs y debugging
- Leer serving/1-ray-serve/README.md
- Verificar
preprocessing_info.pklexiste - Construir imagen Docker
- Cargar en kind/minikube o push a GCP
- Aplicar
config-serve-docker.yaml - Port-forward y probar endpoint
/predict - Verificar logs del pod
- Leer serving/2-triton-server/README.md
- Verificar estructura
model_repository/ - Construir imagen o usar base de NVIDIA
- Ejecutar con Docker o Kubernetes
- Verificar health:
/v2/health/ready - Probar ensemble con cliente Python
- Revisar métricas en puerto 8002
- Leer serving/3-ray-triton-microservices/README.md
- Verificar
docker-compose.yaml - Configurar variables de entorno
- Ejecutar
docker-compose up --build - Verificar ambos servicios (Ray:8080, Triton:8000)
- Probar endpoint
/predictde Ray - Verificar comunicación entre servicios
- Leer serving/4-ray-triton-single/README.md
- Verificar Dockerfile con Triton base
- Construir imagen combinada
- Cargar en kind o push a registry
- Aplicar
config-serve-docker.yaml - Verificar pod con ambos procesos
- Probar endpoint y verificar latencia
| Módulo | README | Dockerfile | Config K8s | Docker Compose |
|---|---|---|---|---|
| Training | 📘 | ❌ | ❌ | ❌ |
| Ray Serve | 📘 | 🐳 | ☸️ | ❌ |
| Triton Server | 📘 | 🐳 | ☸️ | ❌ |
| Ray+Triton Sep | 📘 | 🐳 🐳 | ☸️ | 🐙 |
| Ray+Triton Comb | 📘 | 🐳 | ☸️ | ❌ |
Tip: Usa este documento como índice para navegar rápidamente por toda la documentación del proyecto.
Última actualización: Diciembre 2025