Nemotron-3 Nano Omni × BibiGPT

NVIDIA wypuścił Nemotron-3 Nano Omni 2026-04-28 — multimodalny model MoE Mamba-Transformer 30B-A3B z ~3B aktywnymi parametrami na token, łącznie przetwarzający obraz, wideo, audio i tekst. Day-0 na Hugging Face pod NVIDIA Open Model Agreement z pełnym użyciem komercyjnym. BibiGPT routuje rozumienie długiego wideo, długokontekstowe Q&A audio i document intelligence przez backbone multimodalne klasy Nemotron pod workflowy creator i enterprise.

Wydane · 2026-04-28 30B-A3B MoE multimodalny Hugging Face Day-0

Kluczowe fakty (czytanie 90 sekund)

NVIDIA wypuścił Nemotron-3 Nano Omni 2026-04-28 — multimodalny model MoE Mamba2-Transformer 30B-A3B z ~3B aktywnymi parametrami na token, łącznie przetwarzający obraz, wideo, audio i tekst. Day-0 na Hugging Face pod NVIDIA Open Model Agreement z pełnym użyciem komercyjnym, plus OpenRouter i build.nvidia.com NIM. Best-in-class na MMlongbench-Doc, OCRBenchV2, WorldSense i DailyOmni; do 9× wyższy przepust multimodalny vs alternatywy. Dla użytkowników BibiGPT Nemotron-3 Nano Omni to forma multimodalnego backbone'u long-form, przez który routujemy długie wideo, podcasty i Q&A dokumentów.

Features

Czym jest Nemotron-3 Nano Omni?

Multimodalny flagship NVIDIA z 2026-04-28 w rodzinie Nemotron 3 Nano — backbone hybrydowy MoE Mamba2-Transformer o 30B parametrach z 128 ekspertami, top-6 routingiem i ok. 3B aktywnymi parametrami na token. Łączy rozumienie obrazu, wideo, audio i tekstu w jednym modelu, dostępny Day-0 na Hugging Face.

Multimodalny backbone MoE 30B-A3B

31B parametrów ogółem z ~3B aktywnymi na token przez routing MoE 128 ekspertów top-6. Hybryda łączy 23 warstwy Mamba selective-state-space (efektywność długiego kontekstu), 23 warstwy MoE i 6 warstw GQA — multimodalna inteligencja długokontekstowa po kosztach inferencji aktywnego 3B.

Obraz · wideo · audio · tekst w jednym modelu

CRADIO v4-H jako enkoder wizji dla obrazu i klatek wideo; Parakeet jako enkoder mowy dla audio. Jeden model obsługuje Q&A dokumentów, podsumowywanie, transkrypcję i rozumowanie wideo — bez osobnego stosu dla każdej modalności.

Hugging Face Day-0, commercial-friendly

Wydany pod NVIDIA Open Model Agreement z prawami pełnego użycia komercyjnego. Warianty BF16, FP8 i NVFP4 wszystkie pierwszego dnia na Hugging Face (plus OpenRouter i build.nvidia.com NIM) — wdrożenia lokalne i serverless proste.

Dlaczego to ważne dla użytkowników BibiGPT

BibiGPT to AI-asystent audio/wideo dla twórców i firm — podsumowywanie długiego wideo, analiza wizualna, document intelligence i generacja produktów wiedzy. Nemotron-3 Nano Omni ma dokładnie taką formę multimodalnego backbone'u, do którego BibiGPT routuje rozumienie długich audio/wideo.

Rozumienie długiego wideo staje się tańsze

Model 30B-A3B z ~3B aktywnymi parametrami działa około rząd wielkości taniej niż gęsty 30B w inferencji — lider w benchmarkach wideo/audio WorldSense i DailyOmni. BibiGPT może routować długie wykłady, podcasty i konferencje przez rozumowanie klasy Nemotron bez palenia budżetu premium.

Document intelligence + audio w jednym przebiegu

Best-in-class na MMlongbench-Doc i OCRBenchV2, plus Parakeet do audio. Pipeline'y Q&A dokumentów, tłumaczenia napisów i transkrypcji audio BibiGPT korzystają z jednego modelu obsługującego razem PDF-y OCR-ciężkie, długie wideo i nagrania ze spotkań.

Otwierają się ścieżki edge i self-host

Warianty FP8 (~32.8 GB) i NVFP4 (~20.9 GB) sprawiają, że Nemotron-3 Nano Omni jest realny na pojedynczym GPU. Dla klientów API enterprise BibiGPT to opcja multimodalna on-prem dla wrażliwych nagrań — nie tylko hostowany flagship.

5 kluczowych zmian (czytanie 90 sekund)

Najważniejsze zmiany z wydania Nemotron-3 Nano Omni 2026-04-28.

  1. 1

    MoE 30B-A3B przechodzi na multimodalność

    NVIDIA rozszerza rodzinę Nemotron 3 Nano na zunifikowany model obraz/wideo/audio/tekst. 31B parametrów ogółem, ~3B aktywnych na token przez routing MoE 128 ekspertów top-6 — multimodalny długi kontekst po kosztach inferencji gęstego 3B.

  2. 2

    Hybrydowy backbone Mamba2-Transformer

    Architektura przeplata 23 warstwy Mamba selective-state-space, 23 warstwy MoE i 6 warstw grouped-query-attention. Mamba dźwiga długi kontekst; MoE dodaje warunkową pojemność; GQA dostarcza uwagę tam, gdzie się najbardziej liczy.

  3. 3

    Enkodery wizji i audio zunifikowane

    CRADIO v4-H obsługuje obraz i klatki wideo; Parakeet obsługuje audio. Jeden model pokrywa document intelligence, rozumienie wideo, transkrypcję i Q&A audio — bez osobnego stosu na modalność.

  4. 4

    Hugging Face Day-0 z licencją komercyjną

    Wydany pod NVIDIA Open Model Agreement z prawami pełnego użycia komercyjnego. Warianty BF16, FP8 i NVFP4 pierwszego dnia na Hugging Face, plus OpenRouter (free tier) i mikroserwis NIM build.nvidia.com.

  5. 5

    Kwantyzacja pod deployment single-GPU

    Wariant FP8 ≈ 32.8 GB (8.5 efektywnych bitów/wagę, z KV cache FP8); NVFP4 mixed-precision ≈ 20.9 GB (~4.98 bita/wagę). Edge i self-host stają się realne dla firm potrzebujących on-prem rozumowania multimodalnego.

3 typowe scenariusze dla użytkowników BibiGPT

Gdzie Nemotron-3 Nano Omni najbardziej się opłaca twórczej i firmowej widowni BibiGPT.

Rozumienie długiego wideo przy niskim koszcie aktywnych parametrów

BibiGPT podsumowuje 90-minutowe wykłady, podcasty i konferencje. Z MoE 30B-A3B aktywującym tylko ~3B parametrów na token rozumowanie multimodalne klasy Nemotron działa za ułamek kosztu inferencji gęstego 30B — lider w benchmarkach wideo/audio WorldSense i DailyOmni.

Q&A dokumentów + audio intelligence w jednym modelu

Nemotron-3 Nano Omni jest best-in-class na MMlongbench-Doc i OCRBenchV2, jednocześnie obsługując audio przez Parakeet. Pipeline'y Q&A dokumentów, tłumaczenia napisów i transkrypcji ze spotkań BibiGPT składają się w jeden multimodalny przebieg.

On-prem multimodalny dla klientów API enterprise

Warianty FP8 (~32.8 GB) i NVFP4 (~20.9 GB) sprawiają, że deployment single-GPU jest realny. Dla klientów API enterprise BibiGPT z wrażliwymi nagraniami Nemotron-3 Nano Omni to opcja backbone'u on-prem — nie tylko hostowany flagship multimodalny.

Często zadawane pytania

Zapytaj nas o cokolwiek!

Użyj BibiGPT do podsumowywania długich wideo — wsparte modelami multimodalnymi klasy Nemotron

BibiGPT routuje rozumienie długiego wideo, audio i dokumentów przez backbone multimodalne w formie NVIDIA Nemotron-3 Nano Omni. Wklej link B站 / YouTube / podcast lub wgraj plik — podsumowania, mapy myśli, Q&A AI i krótkie re-renderingi bez wychodzenia z flow.