Nemotron-CC-v2 是由英伟达于 2025 年发布的基于 Nemotron-CC 的后续版本,相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。
该数据集在原有英文网页语料基础上,新增了 2024–2025 年的 8 个 Common Crawl 快照,并进行全局去重与英文过滤;同时使用 Qwen3-30B-A3B 对网页内容进行合成重述,并补充多样化问答(Diverse QA),进一步翻译到 15 种语言,用于强化多语言逻辑推理与通用知识预训练。其意义在于将「高质量英文网页 → 合成多样化问答」的有效做法,结合更新的网页抓取与多语言扩展系统化推到新阶段,并通过严格去重、过滤与可复现的发布,便于直接集成到各类预训练管线。