Nemotron-3 Nano Omni × BibiGPT

NVIDIA hat am 2026-04-28 Nemotron-3 Nano Omni veröffentlicht — ein 30B-A3B Mamba-Transformer MoE Multimodal-Modell mit ~3B aktiven Parametern pro Token, das Bild, Video, Audio und Text gemeinsam verarbeitet. Day-0 auf Hugging Face unter der NVIDIA Open Model Agreement mit voller kommerzieller Nutzung. BibiGPT routet Long-Form-Video-Verständnis, Long-Context-Audio-Q&A und Document Intelligence über Nemotron-Klasse-Multimodal-Backbones für Creator- und Enterprise-Workflows.

Release · 2026-04-28 30B-A3B MoE Multimodal Hugging Face Day-0

Kernfakten (90-Sekunden-Lese)

NVIDIA hat am 2026-04-28 Nemotron-3 Nano Omni veröffentlicht — ein 30B-A3B Mamba2-Transformer MoE Multimodal-Modell mit ~3B aktiven Parametern pro Token, das Bild, Video, Audio und Text gemeinsam verarbeitet. Day-0 auf Hugging Face unter der NVIDIA Open Model Agreement mit voller kommerzieller Nutzung, plus OpenRouter und build.nvidia.com NIM. Best-in-class auf MMlongbench-Doc, OCRBenchV2, WorldSense und DailyOmni; bis zu 9× höherer Multimodal-Durchsatz vs. Alternativen. Für BibiGPT-Nutzer ist Nemotron-3 Nano Omni die Long-Form-Multimodal-Backbone-Form, über die wir lange Videos, Podcasts und Document-Q&A routen.

Features

Was ist Nemotron-3 Nano Omni?

NVIDIAs Multimodal-Flaggschiff vom 2026-04-28 in der Nemotron-3-Nano-Familie — ein 30B-Parameter Mamba2-Transformer-Hybrid-MoE-Backbone mit 128 Experten, top-6 Routing und etwa 3B aktiven Parametern pro Token. Vereint Bild-, Video-, Audio- und Textverständnis in einem Modell, am ersten Tag auf Hugging Face verfügbar.

30B-A3B MoE Multimodal-Backbone

31B Gesamtparameter mit ~3B aktiven pro Token via 128-Experten-top-6-MoE-Routing. Das Hybrid kombiniert 23 Mamba-Selective-State-Space-Layer (Long-Context-Effizienz), 23 MoE-Layer und 6 GQA-Layer — Long-Context-Multimodal zu 3B-aktiven Inferenzkosten.

Bild · Video · Audio · Text in einem Modell

CRADIO v4-H als Vision-Encoder für Bild- und Videoframes; Parakeet als Speech-Encoder für Audio-Inputs. Ein Modell deckt Document-Q&A, Zusammenfassung, Transkription und Video-Reasoning ab — kein separater Stack pro Modalität.

Hugging Face Day-0, kommerzfreundlich

Veröffentlicht unter der NVIDIA Open Model Agreement mit voller kommerzieller Nutzung. BF16-, FP8- und NVFP4-Varianten alle am ersten Tag auf Hugging Face (plus OpenRouter und build.nvidia.com NIM) — lokale und serverlose Deployments einfach umsetzbar.

Warum das für BibiGPT-Nutzer wichtig ist

BibiGPT ist der AI-Audio/Video-Assistent für Creator und Enterprises — Long-Video-Zusammenfassung, visuelle Analyse, Document Intelligence und Wissens-Asset-Generierung. Nemotron-3 Nano Omni hat genau die Multimodal-Backbone-Form, über die BibiGPT Long-Form-Audio/Video-Verständnis routet.

Long-Form-Video-Verständnis wird günstiger

Ein 30B-A3B-Modell mit ~3B aktiven Parametern läuft etwa eine Größenordnung günstiger als ein dichtes 30B bei der Inferenz — führend auf WorldSense- und DailyOmni-Video/Audio-Benchmarks. BibiGPT kann lange Vorträge, Podcasts und Konferenzen über Nemotron-Klasse-Reasoning ohne Premium-Budget routen.

Document Intelligence + Audio in einem Pass

Best-in-class auf MMlongbench-Doc und OCRBenchV2, plus Parakeet für Audio. BibiGPTs Document-Q&A-, Untertitel-Übersetzungs- und Audio-Transkriptions-Pipelines profitieren von einem Modell, das OCR-lastige PDFs, lange Videos und Meeting-Aufnahmen gemeinsam handhabt.

Edge- und Self-Host-Pfade öffnen sich

FP8 (~32.8 GB) und NVFP4 (~20.9 GB) Varianten machen Nemotron-3 Nano Omni auf einer einzelnen GPU machbar. Für BibiGPTs Enterprise-API-Kunden bedeutet das eine On-Prem-Multimodal-Option für sensible Footage — nicht nur ein gehostetes Flaggschiff.

5 wesentliche Änderungen (90-Sekunden-Lese)

Headline-Verschiebungen aus dem Nemotron-3-Nano-Omni-Release vom 2026-04-28.

  1. 1

    30B-A3B MoE wird multimodal

    NVIDIA erweitert die Nemotron-3-Nano-Familie zu einem vereinten Bild/Video/Audio/Text-Modell. 31B Gesamtparameter, ~3B aktiv pro Token via 128-Experten-top-6-MoE — Long-Context-Multimodal zu 3B-Dichten-Inferenzkosten.

  2. 2

    Mamba2-Transformer-Hybrid-Backbone

    Die Architektur verschachtelt 23 Mamba-Selective-State-Space-Layer, 23 MoE-Layer und 6 Grouped-Query-Attention-Layer. Mamba trägt die Long-Context-Hauptlast; MoE addiert konditionale Kapazität; GQA-Layer liefern Attention dort, wo es am meisten zählt.

  3. 3

    Vision- und Audio-Encoder vereint

    CRADIO v4-H handhabt Bild- und Videoframes; Parakeet handhabt Audio. Ein Modell deckt Document Intelligence, Video-Verständnis, Transkription und Audio-Q&A ab — kein separater Stack pro Modalität.

  4. 4

    Hugging Face Day-0 mit kommerzieller Lizenz

    Veröffentlicht unter der NVIDIA Open Model Agreement mit voller kommerzieller Nutzung. BF16-, FP8- und NVFP4-Varianten am ersten Tag auf Hugging Face, plus OpenRouter (Free-Tier) und build.nvidia.com NIM-Microservice.

  5. 5

    Quantisierung für Single-GPU-Deployment

    FP8-Variante ≈ 32.8 GB (8.5 effektive Bits/Gewicht, mit FP8-KV-Cache); NVFP4-Mixed-Precision ≈ 20.9 GB (~4.98 Bits/Gewicht). Edge und Self-Host werden für Enterprises mit On-Prem-Multimodal-Bedarf realistisch.

3 typische Szenarien für BibiGPT-Nutzer

Wo Nemotron-3 Nano Omni für die Creator- und Enterprise-Zielgruppe von BibiGPT am meisten zahlt.

Long-Video-Verständnis zu niedrigen Aktiv-Parameter-Kosten

BibiGPT fasst 90-Minuten-Vorträge, Podcasts und Konferenzen zusammen. Mit einem 30B-A3B MoE, das nur ~3B Parameter pro Token aktiviert, läuft Nemotron-Klasse-Multimodal-Reasoning zu einem Bruchteil der Dichten-30B-Inferenzkosten — führend auf WorldSense- und DailyOmni-Video/Audio-Benchmarks.

Document-Q&A + Audio-Intelligence in einem Modell

Nemotron-3 Nano Omni ist Best-in-class auf MMlongbench-Doc und OCRBenchV2 und handhabt zusätzlich Audio über Parakeet. BibiGPTs Document-Q&A-, Untertitel-Übersetzungs- und Meeting-Transkriptions-Pipelines kollabieren in einen einzigen Multimodal-Pass.

On-Prem-Multimodal für Enterprise-API-Kunden

FP8 (~32.8 GB) und NVFP4 (~20.9 GB) Varianten machen Single-GPU-Deployment realistisch. Für BibiGPTs Enterprise-API-Kunden mit sensibler Footage ist Nemotron-3 Nano Omni die On-Prem-Backbone-Option — nicht nur ein gehostetes Multimodal-Flaggschiff.

Häufig gestellte Fragen

Fragen Sie uns!

Mit BibiGPT lange Videos zusammenfassen — gestützt auf Nemotron-Klasse-Multimodal-Modelle

BibiGPT routet Long-Form-Video-, Audio- und Document-Verständnis über Multimodal-Backbones in der Form von NVIDIA Nemotron-3 Nano Omni. B站 / YouTube / Podcast-Link einfügen oder Datei hochladen — Zusammenfassungen, Mind-Maps, AI-Q&A und Kurzform-Re-Renders ohne Tool-Wechsel.