NVIDIA LNVIDIA 推出 Nemotron 3 Nano Omni,以推进面向企业应用的统一多模态人工智能

简要概述

英伟达推出Nemotron 3 Nano Omni,一款开放的多模态人工智能模型,融合视觉、语音和语言,以提升企业AI性能、效率和可扩展部署。

NVIDIA LNVIDIA Launches Nemotron 3 Nano Omni To Advance Unified Multimodal AI For Enterprise Applications科技公司英伟达宣布发布Nemotron 3 Nano Omni,一款旨在在单一系统中统一视觉、语音和语言能力的开放多模态人工智能模型。该模型旨在使AI代理能够处理和推理多种数据类型,包括视频、音频、图像、文档和文本,同时提供更快、更高效的响应。

据公告称,该模型定位为面向企业的解决方案,旨在改善多模态AI代理的开发和部署。它被描述为在提供高精度的同时降低运营成本,同时为开发者和组织提供部署的灵活性和控制权。据报道,该系统在多个与文档智能以及音频和视频理解相关的基准测试中取得了领先性能。

行业应用已在一系列专注于AI的公司中开始,包括早期用户如Aible、Applied Scientific Intelligence (ASI)、Ekacare、H公司和Pyler。其他组织如Amdocs、戴尔、DocuSign、Infosys、IQVIA、Oracle、Palantir Technologies、Quantiphi、Tata咨询服务和Zefr也在评估该模型,考虑将其集成到企业工作流程中。

多模态AI处理以提升效率、情境感知和企业部署灵活性

在技术应用中,Nemotron 3 Nano Omni旨在减少使用不同模型处理不同模态时常出现的碎片化问题。传统系统通常依赖于视觉、语音和语言处理的不同组件,这可能增加延迟、成本,并导致跨模态推理的不一致。通过基于混合专家模型设计,将视觉和音频编码集成在一个架构中,模型旨在简化推理流程并提高吞吐量。

该系统还旨在作为更广泛代理框架中的感知层,与Nemotron系列的其他模型协作。在实际应用中,它可以支持解释图形用户界面的计算机代理、分析混合格式企业数据的文档智能系统,以及维护多输入流上下文理解的音视频推理工具。

该模型的架构设计用于处理高分辨率输入和长上下文处理,能够更详细地解释复杂环境,如屏幕录制或多文档分析。这一能力旨在提升在需要持续情境感知的任务中的表现。

英伟达已将Nemotron 3 Nano Omni作为开源模型发布,提供权重、数据集和训练方法的访问权限。公司表示,这种方式允许组织根据法规或数据治理要求,在云端、本地和边缘基础设施中定制和部署系统。该模型通过多个分发渠道提供,包括开发者平台和合作伙伴生态系统,支持与现有AI管道的集成。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论