NTransformer roda Llama 70B em uma única RTX 3090 via streaming NVMe-para-GPU

Um novo motor de inferência open source em C++/CUDA chamado NTransformer roda o Llama 3.1 70B em uma única RTX 3090 (24 GB de VRAM), transferindo camadas do modelo pela memória da GPU via PCIe, com I/O direto via NVMe que dispensa a CPU. O ganho é de 83x sobre baselines com mmap. O motor usa cache adaptativo de 3 níveis (VRAM, RAM pinada, fallback em NVMe) e pula camadas via calibração por similaridade de cosseno. Não exige dependências externas além do CUDA Toolkit — sem PyTorch ou cuBLAS.

Ver resumo completo de 22 de fevereiro de 2026