发布时间:2026-03-12 来源:芯智讯
当地时间3月11日,Meta公司宣布,继此前推出的两代自研AI芯片MTIA(Meta Training and Inference Accelerators)系列(MTIA 100、MTIA 200)成功商用后,现在正在开发四款全新的AI芯片,主要用于提升其生成式AI功能及内容排名系统。

据介绍,这四款AI芯片分别为MTIA 300、MTIA 400、MTIA 450和MTIA 500,由Meta与博通公司合作开发,基于开源的RISC-V构架(采用的是Meta去年收购的Rivos公司的内核设计),并由全球领先的晶圆代工厂台积电(TSMC)生产。目前,MTIA 300已经开始生产,而其他三款芯片预计将在2027年初至年底之间出货。
MTIA 100/200已部署数十万颗,两年再推4款芯片
在ISCA'23和ISCA'25上,Meta就曾发表了研究论文,详细介绍了前两代MTIA芯片:MTIA 100和MTIA 200(以前称为MTIA 1和MTIA 2i)。目前,Meta已经在业务中部署了数十万个MTIA系列芯片,加入了许多内部生产模型,并使用Llama等大型语言模型(LLM)测试了MTIA。
在MTIA 100和200推出之后,Meta正在连续开发四代MTIA系列芯片,包括MTIA 300、MTIA 400、MTIA 450和MTIA 500。这些新芯片计划在2026年或2027年部署,将覆盖从排名和推荐(R&R)推理扩展到R&R培训、通用GenAI工作负载和具有针对性优化的GenAI推理。
Meta表示,人工智能模型的发展速度比传统芯片开发周期快。芯片设计基于预计的工作负载,但当硬件投入生产时——通常是两年后——这些工作负载可能已经发生了实质性的变化。与其下注并等待很长一段时间,Meta故意采取了快速迭代的方法:即每一代MTIA芯片都建立在上一代之上,使用模块化小芯片,结合最新的AI工作负载见解和硬件技术,并以更短的节奏进行部署。这种更紧密的循环使Meta的硬件更好地与不断发展的模型保持一致,同时能够更快地采用新技术。
具体来说,最新的四代MTIA系列芯片包括:
MTIA 300针对R&R模型进行了优化,这是GenAI起飞前的主要Meta工作负载,其构建的模块为后续针对GenAI模型进行优化的芯片奠定了坚实的基础。
与前几代产品相比,MTIA 300 的显著特点还包括内置网卡芯片、用于卸载通信任务的专用消息引擎以及用于归约任务的近内存计算。虽然最初是针对 R&R 训练进行优化的,但这些低延迟、高带宽的通信组件为后续 MTIA 芯片中高效的 GenAI 推理和训练奠定了基础。

具体来说,MTIA 300 由一个计算芯片、两个网络芯片和多个 HBM 内存堆栈组成。每个计算芯片包含一个处理单元 (PE) 网格,其中一些 PE 具有冗余以提高良率。
每个PE包含:两个 RISC-V 向量核心、用于矩阵乘法的点积引擎、用于激活和元素级操作的特殊功能单元、用于累积和 PE 间通信的缩减引擎、DMA引擎用于本地暂存内存的数据进出。
具体配置参数方面,MTIA 300配备了216GB HBM;带宽为6.1 TB/s;FP8/MX8 性能1.2 PFlops;BF16 性能 0.6 PFlops;加速器纵向扩展域规模为16个节点;纵向扩展网络 1 TB/s(单向带宽);横向扩展网络200 GB/s(单向带宽);TDP为800W。
目前这款芯片正在生产中,用于R&R培训。
MTIA 400主要是为了应对GenAI需求的激增,以更好地支持GenAI模型,同时保持支持R&R工作负载的能力。MTIA 400 相较于 MTIA 300 有了显著提升,其 FP8 FLOPS 性能提升了 400%,HBM 带宽提升了 51%。并且,MTIA 400具有72个加速器扩展域,可提供与领先商业产品竞争的高性能。
如果说,MTIA 300 是一款经济高效的产品,那么 MTIA 400 则是首款旨在不仅降低成本,而且提供与领先商用产品相媲美的原始性能的 MTIA 芯片。

MTIA 400集成了两个计算芯片组,使计算密度翻倍,并且还支持增强版的 MX8 和 MX4,这两种低精度格式对于高效的 GenAI 推理至关重要。一个机架可以包含 72 个 MTIA 400,通过交换式背板连接,即可构成一个单一的扩展域。

具体参数方面,MTIA 400配备了288GB HBM;带宽为 9.2TB/s;MX4性能 12 PFlops;FP8/MX8 性能 6 PFlops;BF16 性能 3 PFlops;加速器纵向扩展域规模为72个节点;纵向扩展网络1.2 TB/s(单向带宽);横向扩展网络100 GB/s(单向带宽);TDP为1200W。
Meta已经在实验室完成了MTIA 400的测试,并正计划将其部署到Meta数据中心。
考虑到GenAI推理需求的快速增长,Meta将MTIA 400升级到MTIA 450,通过在以下四个方面进行改进,使其更适合 GenAI 推理:
将 HBM 带宽比上一版本提高一倍,以加快解码速度。
将 MX4 FLOPS 提高 75%,以加快混合专家 (MoE) 前馈网络 (FFN) 的计算速度。
引入硬件加速,使注意力机制和 FFN 计算更加高效(例如,通过缓解 Softmax 和 FlashAttention 的瓶颈)。
MTIA 450 超越了 FP8/MX8,其 MX4 FLOPS 是 FP16/BF16 的 6 倍,这体现了低精度 FLOPS 对推理的重要性。MTIA 450 还支持混合低精度计算,而无需承担数据类型转换带来的软件开销。此外,它还引入了Meta自主研发的数据类型创新,在保证模型质量的同时提升 FLOPS,且对芯片面积的影响极小。

具体参数方面,MTIA 400配备了288GB HBM;带宽为18.4 TB/s;MX4性能21 PFlops;FP8/MX8 性能 7 PFlops;BF16 性能 3.5 PFlops;加速器纵向扩展域规模依然是72个节点;纵向扩展网络1.2 TB/s(单向带宽);横向扩展网络100 GB/s(单向带宽);TDP为1400W。
MTIA 450计划于2027年初大规模部署。
MTIA 500:以更少的资源实现更多GenAI推理
随着 GenAI 推理需求的持续增长,Meta将 MTIA 450 升级为 MTIA 500,以更具成本效益的方式支持 GenAI 推理。
MTIA 500 的 HBM 带宽提升了 50%,HBM 容量提升了高达 80%,MX4 FLOPS 提升了 43%。MTIA 500 进一步强化了模块化理念,采用 2x2 的小型计算芯片组配置,周围环绕着多个 HBM 堆栈和两个网络芯片组,以及一个提供 PCIe 连接以连接主机 CPU 和横向扩展网卡的 SoC 芯片组。与 MTIA 450 一样,MTIA 500 也引入了额外的硬件加速和数据类型创新,以解决 GenAI 推理中遇到的瓶颈问题。

具体参数方面,MTIA 500配备了384-512 GB HBM,带宽为 27.6 TB/s;MX4性能 30 PFlops;FP8/MX8 性能 10 PFlops;BF16 性能 5 PFlops;加速器纵向扩展域规模为72个节点;纵向扩展网络1.2 TB/s(单向带宽);横向扩展网络100 GB/s(单向带宽);TDP为1700W。
MTIA 500计划于2027年大规模部署。

总结来看,从MTIA 300到MTIA 500,HBM带宽增加了4.5倍,计算性能(FLOPS)增加了25倍,这一切都将发生在不到两年的时间里,这一快速发展凸显了Meta加速战略的好处。
Meta的策略:高速、推理优先、原生 PyTorch
在竞争激烈的AI芯片领域,Mtea的MTIA战略基于三大支柱:高速迭代芯片开发、以推理为先导、通过基于 PyTorch 等行业标准进行原生构建,实现无缝采用。
鉴于人工智能创新日新月异,Meta已具备大约每6个月推出一款新芯片的能力。这种快速的研发速度带来了两个优势:
快速适应不断发展的 AI 技术:随着新的模型架构、低精度数据类型和服务技术的出现,Mtea可以针对这些进步优化其最新的芯片,为重要操作引入硬件加速,并解决计算、内存和 I/O 之间的瓶颈转移。
快速采用最新硬件技术:例如最新的工艺节点、HBM 和封装技术。
Meta通过贯穿所有层面的可重用模块化设计实现高速发展:从芯片组、机箱、机架到网络基础设施。Meta将加速器架构为芯片组系统——独立的、可重用的计算、I/O 和网络构建模块。由于每个芯片组都可以单独升级,Meta可以在数月内而非数年内完成改进。此外,不同的芯片组可以在不同的工艺节点上制造,从而在满足性能和功耗要求的同时,最大限度地降低成本。
在系统层面,MTIA 400、450 和 500 均采用相同的机箱、机架和网络基础设施。因此,每一代新芯片都可以安装在相同的物理空间内,从而加快从芯片设计到生产部署的过渡。Meta模块化、可复用的设计也最大限度地减少了开发和部署多代芯片所需的资源,而这些高度优化的芯片所带来的优势足以抵消开发和部署过程中所消耗的资源。
主流GPU通常是为最苛刻的工作负载——大规模GenAI预训练——而设计的,然后才被应用于其他工作负载,例如GenAI推理,而后者往往成本效益较低。Meta采用不同的方法:MTIA 450和500首先针对GenAI推理进行优化,然后可根据需要用于支持其他工作负载,包括R&R训练和推理,以及GenAI训练。这使得MTIA能够很好地适应预期中GenAI推理需求的增长。
MTIA 从一开始就基于行业标准的软硬件生态系统——PyTorch、vLLM、Triton 和开放计算项目 (OCP)——原生构建,而非将兼容性和可移植性视为事后考虑。由于PyTorch 起源于 Meta,并且已成为应用最广泛的机器学习框架,MTIA 自然而然地采用了 PyTorch 原生架构。PyTorch、vLLM 和 Triton 共同为开发者提供了一套熟悉的软件栈,支持开源社区资源的复用,并简化了模型迁移。除了行业标准的软件之外,MTIA 的系统和机架解决方案也符合 OCP 标准,从而能够无缝部署到数据中心。
MTIA 软件栈:一种基于 PyTorch 的原生方法
MTIA 软件栈在所有芯片代际中都能提供一致的编程体验。它采用 PyTorch 原生架构,为开发者提供了一个熟悉且完整的生态系统。

无缝模型部署: MTIA 同时支持 eager 模式和 graph 模式。在 graph 模式下,它直接与PyTorch 2.0 的编译流程集成。开发者可以使用熟悉的工具——torch.compile 和 torch.export——来捕获和优化模型图。无需对 MTIA 进行任何特定的重写即可启用模型。这种可移植性使得Meta的生产模型能够同时部署在 GPU 和 MTIA 上。
编译器:在 PyTorch 前端之下,MTIA 专用编译器将高级图表示转换为高度优化的设备代码。图编译器基于 Torch FX IR 和 TorchInductor 构建。内核编译器和底层后端基于 Triton、MLIR 和 LLVM,并针对 MTIA 进行了增强和优化。Meta改进并定制了 TorchInductor 的 Triton 代码生成和内核融合功能,使其更适用于 MTIA,并引入了 MTIA 感知的 MLIR 方言和 Triton DSL 扩展。这些扩展可选择性地用于对性能要求极高的内核。编译器堆栈具有自动调优功能,可使用多种编译策略自动优化工作负载。
内核编写: MTIA 支持编译器驱动的内核生成和融合,支持使用 Triton 和 C++ 进行自动生成和用户手动内核编写,并提供内核自动调优和优化功能。此外,Meta还构建了智能体 AI 系统来实现内核生成的自动化。
通信与传输: MTIA 的通信库 Hoot Collective Communications Library (HCCL) 与 GPU 通信库类似,但具有多项差异化优势。它利用 MTIA 芯片内置的网络芯片实现高效通信,将集体操作卸载到专用消息引擎,并使用近内存计算来加速需要大量归约的集体操作。HCCL 还支持融合计算内核和集体内核以最大限度地降低延迟。最后,其传输协议栈针对低延迟事务进行了优化,并将整个数据路径卸载到主机,从而降低主机协议栈的运行时开销。
运行时和固件: MTIA 运行时管理设备内存、内核调度以及跨多个设备的执行协调。它支持即时执行模式和图执行模式。此外,它还以 Inductor 原生的即时图模式编排计算和集体操作。这种方法能够将计算和通信一起捕获和调度,从而以最小的开销提供类似 GPU 的体验。运行时与基于 Rust 的用户空间驱动程序交互,而不是传统的内核级 Linux 驱动程序。固件采用裸机 Rust 编写,具有低延迟和高性能,并内置内存和线程安全机制。
vLLM 支持: vLLM 的插件架构使其能够轻松与 MTIA 集成。Meta的 MTIA 插件使用 MTIA 专用内核替换了 FlashAttention 和融合 LayerNorm 等重要运算符。通过自定义的 torch.compile 后端支持图模式执行。MTIA 继承并受益于 vLLM 的诸多特性,例如预填充解码分解和连续批处理。
生产工具:为了确保数十万颗 MTIA 芯片在生产环境中可靠运行,MTIA 提供与主流 GPU 同类产品相媲美的生产级监控、性能分析和调试工具,同时还提供独特的功能,例如跨主机和设备的全栈式、大规模可观测性,涵盖软件、固件和硬件层面。其调试器支持精细控制,包括 PE 级别的断点和协同单步执行。
虽然Meta大规模部署的前两代 MTIA 芯片已展现出强大的 R&R 推理能力,但Meta预计最新的四代产品——包括近期发布或计划于 2026 年或 2027 年发布的产品——将进一步拓展 GenAI 推理的边界,实现 R&R 训练,并为未来的 GenAI 训练奠定基础。
Meta表示,每一代 MTIA 芯片都汲取了前代产品的经验,与其软件栈协同设计,并以未来 AI 模型的发展轨迹为指导。MTIA 芯片的模块化、多芯片设计和垂直整合的协同设计方法,能够在保持系统级兼容性的同时,实现快速且持续的性能提升。这些产品将共同助力我们实现目标:为平台上的每一位用户提供当今乃至未来最强大的 AI 体验。