docs(asr): document VRAM-vs-audio-duration limits and add chunked inf… by AviArora02-commits · Pull Request #377 · microsoft/VibeVoice

AviArora02-commits · 2026-04-29T12:11:11Z

Closes #367

Problem

docs/vibevoice-asr.md states "60-minute single-pass processing" without VRAM
qualification. On RTX 4090 (24 GB), default sdpa OOMs beyond ~30 min
(empirically: 30 min → ✅ ~22 GB peak; 50 min → ❌ OOM).

Changes

docs/vibevoice-asr.md: Add Hardware Requirements section documenting
the VRAM-vs-duration relationship and recommending flash_attention_2 for
≤24 GB GPUs.
demo/vibevoice_asr_chunked_inference.py: Minimal chunked inference script
for GPUs where flash-attn is unavailable.

Notes

No model code modified.
Chunked inference carries a known caveat (per-chunk diarization IDs are not
globally consistent); this is documented inline.

…erence script Fixes microsoft#367

docs(asr): document VRAM-vs-audio-duration limits and add chunked inf…

5c6ed8b

…erence script Fixes microsoft#367

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

docs(asr): document VRAM-vs-audio-duration limits and add chunked inf…#377

docs(asr): document VRAM-vs-audio-duration limits and add chunked inf…#377
AviArora02-commits wants to merge 1 commit intomicrosoft:mainfrom
AviArora02-commits:docs/vram-audio-duration-guide-367

AviArora02-commits commented Apr 29, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

AviArora02-commits commented Apr 29, 2026

Problem

Changes

Notes

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant