AIGC时代，如何搭建自己的大模型生产力平台

type

status

date

slug

summary

主流大模型一览

国内外大模型梳理

综合LLM（大模型）的类型（文本、图片、视频）、国内国外、开源闭源，作者梳理出，截止当前主流的大模型。汇总成如下的表格。

国外

GPT/o1

Claude

Gemini

Gork

Gemma

LLaMA

Mistral

Nemotron

Phi

DALL

Sora

公司

OpenAI

Anthropic

Google

开源大模型总参量

这里我们主要讨论文本型，且基于大规模算力进行预训练开发出的，国内外主流开源大模型。

开源模型	参数量级（单位B）	说明
llama	1、3、7、8、13、70、90、405.	laster：llama3.3 70b
Mistral	7、12、22、24、123、	laster：Mistral large 2
Gemma	1、2、4、7、9、12、27、	laster：gemma3
DeepSeek	1.5、7、8、14、32、70、671.	laster：deepseek-r1
Qwen	0.5、1.5、3、4、7、14、32、72、110.	laster：qwen2.5
GLM	2、7、9	laster：glm4 9b

注：黄色代表国外、蓝色代表国产。

大模型在经过了2024年疯狂内卷之后，模型参数的量级普遍来到了千万亿量级。

根据模型的参数量级，目前大模型规模主流的划分为：小型大模型（百亿级别以下）、中型大模型（百万亿级别以上）、大型大模型（千万亿级以上）。

算力硬件平台梳理

因NVDIA占据GPU市场的绝大部分份额，Apple在推出造车行列之后，专注AI领域也有几年时间，所以这里的硬件讨论会集中在NVDAI和Apple两大系列。

NVDIA系列

如果说AI爆火最受益的是谁，那一定非NVDIA莫属。从GPU产品到股价，从数据中心到自动驾驶、从机器人到图形计算，NVDIA疯狂抢占市场。

能够让NVDIA稳坐行业老大位置，主要是其拥有的三大核心：GPUs、CUDA（Compute Unified Device Architecture）、NVLink。简单来讲就是：

多元化的GPU产品线，满足不同场景下对算力的需求；

CUDA能够让开发者使用C/C++直接调用GPU中的数千个核心来执行任务，而不必专门学习GPU底层复杂的硬件结构，这就让NVDIA在需要大量高性能计算场景（如科学计算、图像处理、机器学习、深度学习、大数据分析等。）表现十分出众。

NVLink则让算力强劲的GPU更够更款速的互联，组成庞大的算力集群。

这里我们按照应用领域，梳理NVDIA的GPU产品线，让大家有一个整体的了解。然后再进一步讨论，重点应用在AI领域的具体产品。

按应用领域梳理NVDIA的产品及其适用场景。

应用领域	产品	适用场景
数据中心 AI & 科学计算	Tesla系列（H100、A100、~~V100）~~	AI预训练、科学计算（药物研发、气象模拟），金融分析（股票预测、风控）、自动驾驶数据处理。
专业图形计算	~~Quadro系列~~、NVDIA RTX	建筑设计（AutoCAD）、电影动画（3D建模、VFX电影特效）、医疗影像分析、高端VR/AR
消费级游戏和创意	GeForce 系列	4K/8K 游戏、AI 生成图像（Stable Diffusion、Midjourney）、视频剪辑/流媒体直播
自动驾驶和边缘 AI	Drive Orin、Jetson 系列	自动驾驶（L2-L5 级别）、机器人（智能制造、无人机）、工业 AI（自动化检测、智能安防）、边缘计算（本地 AI 推理）
特殊领域 AI 芯片	BlueField、Grace CPU、Omniverse	面向数据中心、云计算、高性能计算、数字孪生、元宇宙、3D仿真。

现在社会，凡被冠以科技之名的事物，其追溯到底层都可以看到芯片的影子。上表中的梳理中可以看到，NVDIA的产业涉及到了比较全的领域。从游戏到图形计算，从高性能计算到自动驾驶等。

按照型号梳理NVDIA中用于AI的具体产品

GPU型号	级别	芯片架构	主要参数	价格$	备注
B100	数据中心级	Blackwell	141GB HBM3，带宽 3.35TB/s，FP64 60 TFLOPS，	30~40K	基于H100主要提升了带宽和FP64 运算能力
H100	数据中心级	Hopper	14592 CUDA 核，456 Tensor 核，141GB HBM3，带宽 3.35TB/s，FP64 60 TFLOPS	30~40K	H200提升了带宽，HBM3en内存
A100	数据中心级	Ampere	6912 CUDA 核，432 Tensor 核，80GB HBM3，带宽 2TB/s，FP32 19.5 TFLOPS	10~12K	A系列显存分了两个版本40和80GB
RTX A6000	专业级	Ampere	10752 CUDA 核，336 Tensor 核，48GB GDDR6，带宽 768GB/s，FP32 38.7 TFLOPS	4.5~5K	早先主要用于设计和图像渲染领域
GeForce RTX	消费级	Ada Lovelace	16384 CUDA 核，512 Tensor 核，24GB GDDR6X，带宽 1TB/s，FP32 82.6 TFLOPS	1.5~2K	这个是大众接触最多的系列

自从GTC 2024之后，NVDIA恢复了GPU芯片架构的一年一升级的进度。目前其芯片架构最新的是Blackwell，下一代则是Rubin。熟悉移动互联网开发的读者可以已经感受到一些似曾相识，没错，15年前，Android和IOS也是保持这么，每年更新移动端操作系统的节奏。只不过是之前是操作系统，现在芯片架构也开启了快速迭代的时期。

为了追求更强大的算力，NVDIA还推出了，基于已有GPU的组合型产品。比如NVDIA DGX系列，最早是8个或16个V100，后来是4个A100。还有NVDIA HGX系列，集成了8个A100。

为了追求更强大的性能，NVDIA还推出了，GPU+CPU的组合产品，比如GB200 Grace Blackwell Superchip，然后同NVLink协议进行互联，或者通过NVSwitch进行更大GPU数量级的互联。

这里补充NVDIA产品系列中，常见的两个词：GeForce和RTX：

“GeForce”这个名称源自于NVIDIA在1999年举办的“Name That Chip”命名比赛，其中有人提出将其解释为“Geometry Force”，意为“几何力量”，突出了该系列GPU在3D几何运算（如变换和光照）上的强大性能。

“RTX”被理解为代表“Real-Time Ray Tracing”（实时光线追踪），其中“RT”专指光线追踪功能，而“X”则带有强调“极致性能”或“eXtreme”的意味。也就是说，RTX显卡在硬件上集成了专门的RT核心，加速光线追踪运算，从而实现更真实的光影效果。

Apple系列

产品型号	CPU(核数)	GPU(核数)	统一内存(G)	价格($)	推荐的AI适用场景	ㅤ
MacBook Pro	14/16	20/32/40	24/36/48/128	2499~4599	中型模型训练、高效推理	3199刀
MacBook Air	10	8/10	16/24/32	999~1859	小型模型推理	ㅤ
Mac Pro	24	60/76	64/128/192	6999~8439	大型模型训练、复杂推理任务	ㅤ
Mac Studio	14/16/28/32	32/40/60/80	36/96/256/512	1999~12689	大型模型训练、复杂推理任务	3329
Mac Mini	10/12	10/16	16/24/48/64	599~2019	小型模型推理、轻量训练	ㅤ
iMac	8/10	8/10	24/32	1299~1979	小型模型推理、轻量训练	ㅤ

特别说明的一点，作为Apple硬件的天花板，Mac Pro包含有Neural Engine，分为16和32核。

与NVDIA围绕GPU构建算力资源不同，Apple的硬件经过了大量的整合处理和专业优化，最显著的就是统一内存，这跟NVDIA通过NVLink构建更大算力显存的方式完全不同。但弊端就是不能像NVDIA那样，通过NVSwitch能够更庞大的AI算力服务器集群。

Cloud系列

厂商	主要产品	GPU型号	定价模式	参考价格	特点
AWS	Amazon EC2 P5	NVIDIA H100	按小时	$32.77/小时	全球覆盖最广，生态完善
Google Cloud	GCP A3	NVIDIA H100	按小时	$36.23/小时	与Google AI服务深度集成
Microsoft Azure	ND H100 v5	NVIDIA H100	按小时	$34.5/小时	Azure AI服务集成
Lambda Labs	Cloud GPU	NVIDIA H100	按小时	$1.99-$4.99/小时	为AI研究者优化的界面
CoreWeave	Cloud GPU	NVIDIA H100/A100	按小时	$2.06/小时起 (A100)	低延迟，高可用性
Runpod	Cloud GPU	多种NVIDIA GPU	按小时	$0.39/小时起 (RTX4090)	灵活计费，社区驱动
阿里云	GPU云服务器	NVIDIA A100/T4	按量付费/包月	¥66.97/小时 (A100)	国内覆盖广，服务完善
腾讯云	GPU云服务器	NVIDIA T4/V100/A100	按量付费/包月	¥62.5/小时 (A100)	游戏AI领域优势明显
百度云	GPU云服务器	NVIDIA V100/A100	按量付费/包月	¥25/小时起 (V100)	国内AI生态完善
华为云	AI计算服务	Ascend 910/NVIDIA V100	按量付费/包月	¥21/小时起 (V100)	自研昇腾芯片，混合架构
天翼云	AI云主机	NVIDIA V100/T4	按量付费/包月	¥28/小时起 (V100)	电信网络资源支持
星辰智慧	GPU算力平台	NVIDIA A100/H100/RTX	按量付费/长租	¥95/小时起 (H100)	覆盖消费级与专业级GPU

注：黄色北京代表国外厂商，白色背景代表国内厂商。

通过算力云厂商搭建算力的GPU型号，可以很明显得看出来，漂亮国对东大的高端芯片禁运政策的影子。国外的算力平台普遍基于NVDIA最领先的H100来构建，而国内的云厂商大都基于已经废弃的V100系列，或者专业级的A100来搭建算力云。

上表中有一行是表红色的，作者专门花了点时间去查了这家公司，只找到了深圳地区一家公司，且注册资金在500万，通过算力平台的资金量级初步判断，大概率这条信息就是大模型的幻觉。

搭建自己的AI生产力平台

有了以上大模型的梳理和三类硬件平台的讨论，接下来我们就可以结合自身的条件：如预算、技术能力储备、应用场景等，来考虑如何搭建自己的AI生产力平台。

这里遵循一个简单的构建思路：根据大模型参数确定大致的硬件配置，然后根据预算、应用场景等条件综合考虑确定具体的硬件方案。

上面我们讨论过大模型的总参数量，7B算是小型模型中比较有代表性的一个参数量级，这里就以7B为例，详细介绍如何计算所需资源配置。

在部署深度学习模型时，内存（RAM）和显存（GPU内存）的需求主要取决于三部分：模型的参数数量、数据类型以及推理或训练过程中所需的中间计算存储。

以deepseek-r1 7B的大模型为例，其参数量为30亿。常见的数据类型为FP32（占4个Byte）、FP16（占2个Byte）。则内存需求 = 参数量 * 精度所占字节数。

如果以FP16来计算的话，则内存需求为70亿 * 2 =14G。有一个快速计算的方法，内存需要一般为模型参数至少1.5倍，所以7B的大模型所需的内存大小为10.5G。

此外，大模型实际的运行过程中，对于CPU的需求还需要考虑操作系统类型、训练框架（如PyTorch）、数据预处理、所以对于CPU的内存来讲需要至少得12~16G。

针对于GPU的显存计算，则需要考虑到具体场景：预训练和推理。

推理场景

考虑模型参数、推理过程参数量。

基础模型加载：FP16需14G。

KV缓存（生成时动态占用）：

每Token缓存 ≈ 2 × 层数 × 隐藏维度 × 注意力头数。
示例：32层、4096隐藏维、32头 → 每Token约2MB，1k Token需2 GB。

总显存：模型加载 + KV缓存 ≈ 14 GB + 2 GB = 16 GB（FP16）。

吞吐量与延迟

计算量：每Token约2 × 参数量 FLOPs = 14 GFLOPs。

A100理论峰值：312 TFLOPS → 22,285 Tokens/秒（实际受带宽限制约500-1000 Tokens/秒）。

推理可能是用户使用AI的绝大部分场景，需要涉及到购买硬件一般是两类人群：具有技术专业能力的个体和想做AI商业的中小团队。

对于资金相对宽裕的用户，比如说中小团队，比较推荐NVIDA专业级显卡A6000，或者A100。基于上面的讨论，还可以考虑Mac Pro.

对于资金有限的用户，比较推荐GeForce RTX 5090/4090。相对更推荐4090，因为两款GPU实际测试下来，5090提升的相对有限，所以4090更具有性价比。

预训练场景

考虑参数、梯度、优化器、中间激活值（与批次大小和序列长度相关）。

参数+梯度：14 GB（FP16参数） + 14 GB（FP16梯度）= 28 GB。

优化器状态（Adam）：

FP32参数副本：7B × 4字节 = 28 GB。
动量与方差：7B × 4字节 × 2 = 56 GB。
总计：28 + 56 = 84 GB。

中间激活值：与批次大小和序列长度相关。例如，序列长度2048+大批次可能占用数十GB。

总显存需求：28 GB（参数+梯度） + 84 GB（优化器） + 激活 ≈ 120-150 GB。

解决方案：

多GPU并行：使用ZeRO-3优化（DeepSpeed）分割优化器状态，显存需求可降至单卡约 20-30 GB。

推荐硬件：8×NVIDIA A100 80GB或4×H100 80GB，支持数据并行+ZeRO优化。

计算量估算

训练FLOPs ≈ 6 × 参数量 × Token数（如1T tokens） = 4.2e+22 FLOPs。

GPU算力：A100 FP16算力≈ 312 TFLOPS，H100≈ 989 TFLOPS。

训练时间（8×A100）：

有效算力（考虑30%效率）：8 × 312e12 × 0.3 = 7.5e14 FLOPS。
时间 ≈ 4.2e22 / 7.5e14 ≈ 64万秒（约7.4天）。

预训练场景往往针对的事企业用户，根据资金情况可以分为两种情况：

不差钱的用户首推A100，这样既能满足训练也能用于推理。

资金有限的企业，比如中小企业，推荐专业级的显卡如A6000或者A100；对于追求大模型质量和性能的用户，还有一种方案是训练使用云算力的顶级配置，日常推理配合A6000或A100也是比较经济的一种方案。

对于大厂、数据中心、云厂商等资金实力强悍的客户，自然是比较推荐H100，或者NVDIA的集群方案。

这里也以Deepseek为例，给出其他参数量级所推荐的参考GPU配置。

以上是基于对大模型不做优化场景下，估算其所需资源配置的情况。其实也可以通过一些技术手段，对大模型进行降低规模，达到在较低资源配置上运行的目的，其中之一的技术方案便是模型量化。

模型量化

压缩大模型运行时需要的配置，可以分为两种方法：4位量化和8位量化。

以4为量化法为例：

从 Hugging Face下载 DeepSeek 模型（如 R1-7B）。主要有以下两个方法。

使用 llama.cpp 的 quantize 脚本转换为 4 位：

在 PyTorch 中使用 bitsandbytes 加载 4 位模型

社区反馈：Reddit 和 X 上用户报告，DeepSeek R1-7B 在 4 位量化后显存需求降至 5-6GB，性能损失约 5%-10%。

最后

这里简单梳理总结下全文的主要内容：

GPU承担大规模并行计算：在AI时代，CPU更多承担的是模型的加载、预处理与任务调度，真正执行计算的是GPU。

模型参数与硬件内存、显存之间的关系：参数量级决定了大模型的智慧程度，内存决定了能加载多大的模型文件，显存决定了能运行多大的模型参数和中间结果。

模型训练更需资金实力：用于训练普遍需要更强的硬件，用于推理或者微调则对显卡的要求较小。