Como rodar um VLM open-source no NVIDIA Jetson (vLLM + Live VLM WebUI) - FRI

Modelos Vision-Language (VLMs) estão ficando bons e leves o suficiente para sair do datacenter e ir para a borda (robôs, câmeras, inspeção, automação). Um tutorial recente da Hugging Face mostra, na prática, como servir o NVIDIA Cosmos Reason 2B em dispositivos Jetson usando vLLM e plugar isso num WebUI em tempo real com webcam.

Fonte principal: Hugging Face — Deploying Open Source Vision Language Models (VLM) on Jetson

O que você vai montar (visão geral rápida)

Baixar o checkpoint FP8 do modelo via NGC CLI (NVIDIA).
Subir um container do vLLM adequado ao seu Jetson e servir o modelo via API (porta 8000).
Conectar o Live VLM WebUI para usar webcam/vídeo e receber análise em linguagem natural.

Checklist de pré-requisitos (pra não travar no meio)

NVMe SSD (o tutorial cita ~5 GB para pesos FP8 + ~8 GB para a imagem do vLLM).
JetPack: 6 (Orin) ou 7 (Thor), conforme o hardware.
Conta no NVIDIA NGC para baixar modelo e containers.

3 insights aplicáveis (na vida real)

1) Contexto grande custa caro — e na borda você precisa negociar isso

No Jetson AGX (Thor/Orin) o tutorial usa --max-model-len 8192, mas no Orin Super Nano ele reduz para 256 e adiciona flags agressivas (ex.: --enforce-eager, --max-num-seqs 1, --gpu-memory-utilization 0.65). Na prática: para casos de câmera/robótica, muitas vezes é melhor um fluxo de “análises curtas e frequentes” do que tentar enfiar tudo num prompt gigantesco.

2) Teste a API antes do UI (diagnóstico em 30 segundos)

Um padrão simples que evita dor: suba o vLLM e valide com curl http://localhost:8000/v1/models e um /v1/chat/completions antes de abrir o WebUI. Se o modelo não aparece aí, não é o WebUI que está quebrado — é path do volume, nome do modelo, ou a inicialização do servidor.

3) Para vídeo/webcam, controle o “quanto de multimodal entra” por requisição

O tutorial limita multimodal no Nano com --limit-mm-per-prompt e reduz frames/resolução via --mm-processor-kwargs. Isso é ouro para produção: você controla latência e estabilidade ao invés de deixar o pipeline “puxar” frames demais e estourar memória.

Ideia de uso: acople isso a uma câmera (loja, fábrica, escritório) para gerar alertas em texto: “fila aumentando”, “EPI ausente”, “objeto fora do lugar”, “porta aberta”, etc. Comece com regras simples e vá sofisticando quando tiver confiança na câmera/iluminação.

Pergunta pra você

Se você fosse colocar um VLM na borda hoje, qual seria o primeiro caso de uso que realmente economiza tempo/dinheiro no seu contexto?

Nota: o passo a passo e os comandos completos estão na fonte principal. Aqui eu foquei no que costuma dar errado (memória/contexto e validação por API) e no que mais rende resultado em projetos reais.

FRI – Ficando Rico Com [IA]