type
status
date
slug
summary
tags
category
icon
password
本文主要通过国内外大模型以及算力硬件平台的梳理,讨论如何搭建自己的,基于大模型的AI生产力平台。
读者收益:
- 国内外主流大模型的全景是什么样?
- 目前主流的三大算力资源选择都有哪些?
- 如何搭建自己的AI生产力平台?
主流大模型一览
国内外大模型梳理
综合LLM(大模型)的类型(文本、图片、视频)、国内国外、开源闭源,作者梳理出,截止当前主流的大模型。汇总成如下的表格。
国外 | GPT/o1 | Claude | Gemini | Gork | Gemma | LLaMA | Mistral | Nemotron | Phi | MJ | SD | DALL | Sora |
公司 | OpenAI | Anthropic | Google | X | Google | Meta | Mistral | NVDIA | MicroSoft | LeapMotion | SD | OpenAI | OpenAI |
国内 | DeepSeek | Qwen | Doubao | GLM | 星火 | Kimi | Yuewen | 盘古 | Hunyuan | Colcengine | Wanxiang | Kolors | hailuo |
公司 | 幻方量化 | 阿里 | 字节 | 智普 | 讯飞 | 月之暗面 | 阶跃星辰 | 华为 | 腾讯 | 字节 | 阿里通义 | 快手 | MiniMax |
注:红色字体表示开源大模型,黄色背景表示文本大模型,浅紫色背景表示图片大模型,浅红色表示视频大模型。
在大模型领域,虽然整体发展上国内稍弱于国外,但是今年过年期间爆火的DeepSeek,让中美在大模型这一AI最火热的领域之间的距离,拉近了一大截。而且国内在大模型的具体任务类型(文本、图片、视频)方面,都已有对标的大模型。
从大模型的具体任务类型来看,当前主流的依然是以文本类型为代表的通用型大模型,占据了AIGC领域的绝大部分。得益于国内短视频和直播领域的巨量数据,国内大模型厂商在图片和视频领域表现不错,指的一提的是海螺AI,生成的视频很有质量。
有一点倒是挺意外的。国外的互联网那个技术大都选择开源方案,大名鼎鼎的开源组织Apache就维护了不少开源项目。但是在大模型领域,国外那些掌握顶级LLM技术的一流大厂,大多选择闭源。这点上国内的大厂则刚好相反。
以上整理的大部分模型主要来自中美,但有一个除外,Mistral。这是一家专注于大语言模型的来自法国的公司。
开源大模型总参量
这里我们主要讨论文本型,且基于大规模算力进行预训练开发出的,国内外主流开源大模型。
开源模型 | 参数量级(单位B) | 说明 |
llama | 1、3、7、8、13、70、90、405. | laster:llama3.3 70b |
Mistral | 7、12、22、24、123、 | laster:Mistral large 2 |
Gemma | 1、2、4、7、9、12、27、 | laster:gemma3 |
DeepSeek | 1.5、7、8、14、32、70、671. | laster:deepseek-r1 |
Qwen | 0.5、1.5、3、4、7、14、32、72、110. | laster:qwen2.5 |
GLM | 2、7、9 | laster:glm4 9b |
注:黄色代表国外、蓝色代表国产。
大模型在经过了2024年疯狂内卷之后,模型参数的量级普遍来到了千万亿量级。
根据模型的参数量级,目前大模型规模主流的划分为:小型大模型(百亿级别以下)、中型大模型(百万亿级别以上)、大型大模型(千万亿级以上)。
算力硬件平台梳理
因NVDIA占据GPU市场的绝大部分份额,Apple在推出造车行列之后,专注AI领域也有几年时间,所以这里的硬件讨论会集中在NVDAI和Apple两大系列。
NVDIA系列
如果说AI爆火最受益的是谁,那一定非NVDIA莫属。从GPU产品到股价,从数据中心到自动驾驶、从机器人到图形计算,NVDIA疯狂抢占市场。
能够让NVDIA稳坐行业老大位置,主要是其拥有的三大核心:GPUs、CUDA(Compute Unified Device Architecture)、NVLink。简单来讲就是:
- 多元化的GPU产品线,满足不同场景下对算力的需求;
- CUDA能够让开发者使用C/C++直接调用GPU中的数千个核心来执行任务,而不必专门学习GPU底层复杂的硬件结构,这就让NVDIA在需要大量高性能计算场景(如科学计算、图像处理、机器学习、深度学习、大数据分析等。)表现十分出众。
- NVLink则让算力强劲的GPU更够更款速的互联,组成庞大的算力集群。
这里我们按照应用领域,梳理NVDIA的GPU产品线,让大家有一个整体的了解。然后再进一步讨论,重点应用在AI领域的具体产品。
按应用领域梳理NVDIA的产品及其适用场景。
应用领域 | 产品 | 适用场景 |
数据中心 AI & 科学计算 | Tesla系列 (H100、A100、 | AI预训练、科学计算(药物研发、气象模拟),金融分析(股票预测、风控)、自动驾驶数据处理。 |
专业图形计算 | 建筑设计(AutoCAD)、电影动画(3D建模、VFX电影特效)、医疗影像分析、高端VR/AR | |
消费级游戏和创意 | GeForce 系列 | 4K/8K 游戏、AI 生成图像(Stable Diffusion、Midjourney)、视频剪辑/流媒体直播 |
自动驾驶和边缘 AI | Drive Orin、Jetson 系列 | 自动驾驶(L2-L5 级别)、机器人(智能制造、无人机)、工业 AI(自动化检测、智能安防)、边缘计算(本地 AI 推理) |
特殊领域 AI 芯片 | BlueField、Grace CPU、Omniverse | 面向数据中心、云计算、高性能计算、数字孪生、元宇宙、3D仿真。 |
现在社会,凡被冠以科技之名的事物,其追溯到底层都可以看到芯片的影子。上表中的梳理中可以看到,NVDIA的产业涉及到了比较全的领域。从游戏到图形计算,从高性能计算到自动驾驶等。
按照型号梳理NVDIA中用于AI的具体产品
GPU型号 | 级别 | 芯片架构 | 主要参数 | 价格$ | 备注 |
B100 | 数据中心级 | Blackwell | 141GB HBM3,带宽 3.35TB/s,FP64 60 TFLOPS, | 30~40K | 基于H100主要提升了带宽和FP64 运算能力 |
H100 | 数据中心级 | Hopper | 14592 CUDA 核,456 Tensor 核,141GB HBM3,带宽 3.35TB/s,FP64 60 TFLOPS | 30~40K | H200提升了带宽,HBM3en内存 |
A100 | 数据中心级 | Ampere | 6912 CUDA 核,432 Tensor 核,80GB HBM3,带宽 2TB/s,FP32 19.5 TFLOPS | 10~12K | A系列显存分了两个版本40和80GB |
RTX A6000 | 专业级 | Ampere | 10752 CUDA 核,336 Tensor 核,48GB GDDR6,带宽 768GB/s,FP32 38.7 TFLOPS | 4.5~5K | 早先主要用于设计和图像渲染领域 |
GeForce RTX | 消费级 | Ada Lovelace | 16384 CUDA 核,512 Tensor 核,24GB GDDR6X,带宽 1TB/s,FP32 82.6 TFLOPS | 1.5~2K | 这个是大众接触最多的系列 |
自从GTC 2024之后,NVDIA恢复了GPU芯片架构的一年一升级的进度。目前其芯片架构最新的是Blackwell,下一代则是Rubin。熟悉移动互联网开发的读者可以已经感受到一些似曾相识,没错,15年前,Android和IOS也是保持这么,每年更新移动端操作系统的节奏。只不过是之前是操作系统,现在芯片架构也开启了快速迭代的时期。
为了追求更强大的算力,NVDIA还推出了,基于已有GPU的组合型产品。比如NVDIA DGX系列,最早是8个或16个V100,后来是4个A100。还有NVDIA HGX系列,集成了8个A100。
为了追求更强大的性能,NVDIA还推出了,GPU+CPU的组合产品,比如GB200 Grace Blackwell Superchip,然后同NVLink协议进行互联,或者通过NVSwitch进行更大GPU数量级的互联。
这里补充NVDIA产品系列中,常见的两个词:GeForce和RTX:
- “GeForce”这个名称源自于NVIDIA在1999年举办的“Name That Chip”命名比赛,其中有人提出将其解释为“Geometry Force”,意为“几何力量”,突出了该系列GPU在3D几何运算(如变换和光照)上的强大性能。
- “RTX”被理解为代表“Real-Time Ray Tracing”(实时光线追踪),其中“RT”专指光线追踪功能,而“X”则带有强调“极致性能”或“eXtreme”的意味。也就是说,RTX显卡在硬件上集成了专门的RT核心,加速光线追踪运算,从而实现更真实的光影效果。
Apple系列
产品型号 | CPU(核数) | GPU(核数) | 统一内存(G) | 价格($) | 推荐的AI适用场景 | ㅤ |
MacBook Pro | 14/16 | 20/32/40 | 24/36/48/128 | 2499~4599 | 中型模型训练、高效推理 | 3199刀 |
MacBook Air | 10 | 8/10 | 16/24/32 | 999~1859 | 小型模型推理 | ㅤ |
Mac Pro | 24 | 60/76 | 64/128/192 | 6999~8439 | 大型模型训练、复杂推理任务 | ㅤ |
Mac Studio | 14/16/28/32 | 32/40/60/80 | 36/96/256/512 | 1999~12689 | 大型模型训练、复杂推理任务 | 3329 |
Mac Mini | 10/12 | 10/16 | 16/24/48/64 | 599~2019 | 小型模型推理、轻量训练 | ㅤ |
iMac | 8/10 | 8/10 | 24/32 | 1299~1979 | 小型模型推理、轻量训练 | ㅤ |
特别说明的一点,作为Apple硬件的天花板,Mac Pro包含有Neural Engine,分为16和32核。
与NVDIA围绕GPU构建算力资源不同,Apple的硬件经过了大量的整合处理和专业优化,最显著的就是统一内存,这跟NVDIA通过NVLink构建更大算力显存的方式完全不同。但弊端就是不能像NVDIA那样,通过NVSwitch能够更庞大的AI算力服务器集群。
Cloud系列
厂商 | 主要产品 | GPU型号 | 定价模式 | 参考价格 | 特点 |
AWS | Amazon EC2 P5 | NVIDIA H100 | 按小时 | $32.77/小时 | 全球覆盖最广,生态完善 |
Google Cloud | GCP A3 | NVIDIA H100 | 按小时 | $36.23/小时 | 与Google AI服务深度集成 |
Microsoft Azure | ND H100 v5 | NVIDIA H100 | 按小时 | $34.5/小时 | Azure AI服务集成 |
Lambda Labs | Cloud GPU | NVIDIA H100 | 按小时 | $1.99-$4.99/小时 | 为AI研究者优化的界面 |
CoreWeave | Cloud GPU | NVIDIA H100/A100 | 按小时 | $2.06/小时起 (A100) | 低延迟,高可用性 |
Runpod | Cloud GPU | 多种NVIDIA GPU | 按小时 | $0.39/小时起 (RTX4090) | 灵活计费,社区驱动 |
阿里云 | GPU云服务器 | NVIDIA A100/T4 | 按量付费/包月 | ¥66.97/小时 (A100) | 国内覆盖广,服务完善 |
腾讯云 | GPU云服务器 | NVIDIA T4/V100/A100 | 按量付费/包月 | ¥62.5/小时 (A100) | 游戏AI领域优势明显 |
百度云 | GPU云服务器 | NVIDIA V100/A100 | 按量付费/包月 | ¥25/小时起 (V100) | 国内AI生态完善 |
华为云 | AI计算服务 | Ascend 910/NVIDIA V100 | 按量付费/包月 | ¥21/小时起 (V100) | 自研昇腾芯片,混合架构 |
天翼云 | AI云主机 | NVIDIA V100/T4 | 按量付费/包月 | ¥28/小时起 (V100) | 电信网络资源支持 |
星辰智慧 | GPU算力平台 | NVIDIA A100/H100/RTX | 按量付费/长租 | ¥95/小时起 (H100) | 覆盖消费级与专业级GPU |
注:黄色北京代表国外厂商,白色背景代表国内厂商。
通过算力云厂商搭建算力的GPU型号,可以很明显得看出来,漂亮国对东大的高端芯片禁运政策的影子。国外的算力平台普遍基于NVDIA最领先的H100来构建,而国内的云厂商大都基于已经废弃的V100系列,或者专业级的A100来搭建算力云。
上表中有一行是表红色的,作者专门花了点时间去查了这家公司,只找到了深圳地区一家公司,且注册资金在500万,通过算力平台的资金量级初步判断,大概率这条信息就是大模型的幻觉。
搭建自己的AI生产力平台
有了以上大模型的梳理和三类硬件平台的讨论,接下来我们就可以结合自身的条件:如预算、技术能力储备、应用场景等,来考虑如何搭建自己的AI生产力平台。
这里遵循一个简单的构建思路:根据大模型参数确定大致的硬件配置,然后根据预算、应用场景等条件综合考虑确定具体的硬件方案。
上面我们讨论过大模型的总参数量,7B算是小型模型中比较有代表性的一个参数量级,这里就以7B为例,详细介绍如何计算所需资源配置。
在部署深度学习模型时,内存(RAM)和显存(GPU内存)的需求主要取决于三部分:模型的参数数量、数据类型以及推理或训练过程中所需的中间计算存储。
以deepseek-r1 7B的大模型为例,其参数量为30亿。常见的数据类型为FP32(占4个Byte)、FP16(占2个Byte)。则内存需求 = 参数量 * 精度所占字节数。
如果以FP16来计算的话,则内存需求为70亿 * 2 =14G。有一个快速计算的方法,内存需要一般为模型参数至少1.5倍,所以7B的大模型所需的内存大小为10.5G。
此外,大模型实际的运行过程中,对于CPU的需求还需要考虑操作系统类型、训练框架(如PyTorch)、数据预处理、所以对于CPU的内存来讲需要至少得12~16G。
针对于GPU的显存计算,则需要考虑到具体场景:预训练和推理。
推理场景
考虑模型参数、推理过程参数量。
- 基础模型加载:FP16需14G。
- KV缓存(生成时动态占用):
- 每Token缓存 ≈ 2 × 层数 × 隐藏维度 × 注意力头数。
- 示例:32层、4096隐藏维、32头 → 每Token约2MB,1k Token需2 GB。
- 总显存:模型加载 + KV缓存 ≈ 14 GB + 2 GB = 16 GB(FP16)。
吞吐量与延迟
- 计算量:每Token约2 × 参数量 FLOPs = 14 GFLOPs。
- A100理论峰值:312 TFLOPS → 22,285 Tokens/秒(实际受带宽限制约500-1000 Tokens/秒)。
推理可能是用户使用AI的绝大部分场景,需要涉及到购买硬件一般是两类人群:具有技术专业能力的个体和想做AI商业的中小团队。
对于资金相对宽裕的用户,比如说中小团队,比较推荐NVIDA专业级显卡A6000,或者A100。基于上面的讨论,还可以考虑Mac Pro.
对于资金有限的用户,比较推荐GeForce RTX 5090/4090。相对更推荐4090,因为两款GPU实际测试下来,5090提升的相对有限,所以4090更具有性价比。
预训练场景
考虑参数、梯度、优化器、中间激活值(与批次大小和序列长度相关)。
- 参数+梯度:14 GB(FP16参数) + 14 GB(FP16梯度)= 28 GB。
- 优化器状态(Adam):
- FP32参数副本:7B × 4字节 = 28 GB。
- 动量与方差:7B × 4字节 × 2 = 56 GB。
- 总计:28 + 56 = 84 GB。
- 中间激活值:与批次大小和序列长度相关。例如,序列长度2048+大批次可能占用数十GB。
- 总显存需求:28 GB(参数+梯度) + 84 GB(优化器) + 激活 ≈ 120-150 GB。
解决方案:
- 多GPU并行:使用ZeRO-3优化(DeepSpeed)分割优化器状态,显存需求可降至单卡约 20-30 GB。
- 推荐硬件:8×NVIDIA A100 80GB或4×H100 80GB,支持数据并行+ZeRO优化。
计算量估算
- 训练FLOPs ≈ 6 × 参数量 × Token数(如1T tokens) = 4.2e+22 FLOPs。
- GPU算力:A100 FP16算力≈ 312 TFLOPS,H100≈ 989 TFLOPS。
- 训练时间(8×A100):
- 有效算力(考虑30%效率):8 × 312e12 × 0.3 = 7.5e14 FLOPS。
- 时间 ≈ 4.2e22 / 7.5e14 ≈ 64万秒(约7.4天)。
预训练场景往往针对的事企业用户,根据资金情况可以分为两种情况:
- 不差钱的用户首推A100,这样既能满足训练也能用于推理。
- 资金有限的企业,比如中小企业,推荐专业级的显卡如A6000或者A100;对于追求大模型质量和性能的用户,还有一种方案是训练使用云算力的顶级配置,日常推理配合A6000或A100也是比较经济的一种方案。
对于大厂、数据中心、云厂商等资金实力强悍的客户,自然是比较推荐H100,或者NVDIA的集群方案。
这里也以Deepseek为例,给出其他参数量级所推荐的参考GPU配置。

以上是基于对大模型不做优化场景下,估算其所需资源配置的情况。其实也可以通过一些技术手段,对大模型进行降低规模,达到在较低资源配置上运行的目的,其中之一的技术方案便是模型量化。
模型量化
压缩大模型运行时需要的配置,可以分为两种方法:4位量化和8位量化。
以4为量化法为例:
从 Hugging Face下载 DeepSeek 模型(如 R1-7B)。主要有以下两个方法。
- 使用 llama.cpp 的 quantize 脚本转换为 4 位:
- 在 PyTorch 中使用 bitsandbytes 加载 4 位模型
社区反馈:Reddit 和 X 上用户报告,DeepSeek R1-7B 在 4 位量化后显存需求降至 5-6GB,性能损失约 5%-10%。

最后
这里简单梳理总结下全文的主要内容:
- GPU承担大规模并行计算:在AI时代,CPU更多承担的是模型的加载、预处理与任务调度,真正执行计算的是GPU。
- 模型参数与硬件内存、显存之间的关系:参数量级决定了大模型的智慧程度,内存决定了能加载多大的模型文件,显存决定了能运行多大的模型参数和中间结果。
- 模型训练更需资金实力:用于训练普遍需要更强的硬件,用于推理或者微调则对显卡的要求较小。
- Author:Taylor
- URL:https://taylorai.top/article/1d02186a-d85d-801a-a773-de91e811bce1
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts