type
status
date
slug
summary
tags
category
icon
password
本文主要通过国内外大模型以及算力硬件平台的梳理,讨论如何搭建自己的,基于大模型的AI生产力平台。
 
读者收益:
  • 国内外主流大模型的全景是什么样?
  • 目前主流的三大算力资源选择都有哪些?
  • 如何搭建自己的AI生产力平台?

主流大模型一览

国内外大模型梳理

 
综合LLM(大模型)的类型(文本、图片、视频)、国内国外、开源闭源,作者梳理出,截止当前主流的大模型。汇总成如下的表格。
 
国外
GPT/o1
Claude
Gemini
Gork
Gemma
LLaMA
Mistral
Nemotron
Phi
MJ
SD
DALL
Sora
公司
OpenAI
Anthropic
Google
X
Google
Meta
Mistral
NVDIA
MicroSoft
LeapMotion
SD
OpenAI
OpenAI
国内
DeepSeek
Qwen
Doubao
GLM
星火
Kimi
Yuewen
盘古
Hunyuan
Colcengine
Wanxiang
Kolors
hailuo
公司
幻方量化
阿里
字节
智普
讯飞
月之暗面
阶跃星辰
华为
腾讯
字节
阿里通义
快手
MiniMax
注:红色字体表示开源大模型,黄色背景表示文本大模型,浅紫色背景表示图片大模型,浅红色表示视频大模型
 
在大模型领域,虽然整体发展上国内稍弱于国外,但是今年过年期间爆火的DeepSeek,让中美在大模型这一AI最火热的领域之间的距离,拉近了一大截。而且国内在大模型的具体任务类型(文本、图片、视频)方面,都已有对标的大模型。
 
从大模型的具体任务类型来看,当前主流的依然是以文本类型为代表的通用型大模型,占据了AIGC领域的绝大部分。得益于国内短视频和直播领域的巨量数据,国内大模型厂商在图片和视频领域表现不错,指的一提的是海螺AI,生成的视频很有质量。
 
有一点倒是挺意外的。国外的互联网那个技术大都选择开源方案,大名鼎鼎的开源组织Apache就维护了不少开源项目。但是在大模型领域,国外那些掌握顶级LLM技术的一流大厂,大多选择闭源。这点上国内的大厂则刚好相反。
 
以上整理的大部分模型主要来自中美,但有一个除外,Mistral。这是一家专注于大语言模型的来自法国的公司。

开源大模型总参量

 
这里我们主要讨论文本型,且基于大规模算力进行预训练开发出的,国内外主流开源大模型。
 
开源模型
参数量级(单位B)
说明
llama
1、3、7、8、13、70、90、405.
laster:llama3.3 70b
Mistral
7、12、22、24、123、
laster:Mistral large 2
Gemma
1、2、4、7、9、12、27、
laster:gemma3
DeepSeek
1.5、7、8、14、32、70、671.
laster:deepseek-r1
Qwen
0.5、1.5、3、4、7、14、32、72、110.
laster:qwen2.5
GLM
2、7、9
laster:glm4 9b
注:黄色代表国外、蓝色代表国产。
 
大模型在经过了2024年疯狂内卷之后,模型参数的量级普遍来到了千万亿量级。
 
根据模型的参数量级,目前大模型规模主流的划分为:小型大模型(百亿级别以下)、中型大模型(百万亿级别以上)、大型大模型(千万亿级以上)。

算力硬件平台梳理

 
因NVDIA占据GPU市场的绝大部分份额,Apple在推出造车行列之后,专注AI领域也有几年时间,所以这里的硬件讨论会集中在NVDAI和Apple两大系列。

NVDIA系列

 
如果说AI爆火最受益的是谁,那一定非NVDIA莫属。从GPU产品到股价,从数据中心到自动驾驶、从机器人到图形计算,NVDIA疯狂抢占市场。
 
能够让NVDIA稳坐行业老大位置,主要是其拥有的三大核心:GPUs、CUDA(Compute Unified Device Architecture)、NVLink。简单来讲就是:
 
  • 多元化的GPU产品线,满足不同场景下对算力的需求;
  • CUDA能够让开发者使用C/C++直接调用GPU中的数千个核心来执行任务,而不必专门学习GPU底层复杂的硬件结构,这就让NVDIA在需要大量高性能计算场景(如科学计算、图像处理、机器学习、深度学习、大数据分析等。)表现十分出众。
  • NVLink则让算力强劲的GPU更够更款速的互联,组成庞大的算力集群。
 
这里我们按照应用领域,梳理NVDIA的GPU产品线,让大家有一个整体的了解。然后再进一步讨论,重点应用在AI领域的具体产品。
 
按应用领域梳理NVDIA的产品及其适用场景。
应用领域
产品
适用场景
数据中心 AI & 科学计算
Tesla系列 (H100、A100、V100)
AI预训练、科学计算(药物研发、气象模拟),金融分析(股票预测、风控)、自动驾驶数据处理。
专业图形计算
Quadro系列、NVDIA RTX
建筑设计(AutoCAD)、电影动画(3D建模、VFX电影特效)、医疗影像分析、高端VR/AR
消费级游戏和创意
GeForce 系列
4K/8K 游戏、AI 生成图像(Stable Diffusion、Midjourney)、视频剪辑/流媒体直播
自动驾驶和边缘 AI
Drive Orin、Jetson 系列
自动驾驶(L2-L5 级别)、机器人(智能制造、无人机)、工业 AI(自动化检测、智能安防)、边缘计算(本地 AI 推理)
特殊领域 AI 芯片
BlueField、Grace CPU、Omniverse
面向数据中心、云计算、高性能计算、数字孪生、元宇宙、3D仿真。
现在社会,凡被冠以科技之名的事物,其追溯到底层都可以看到芯片的影子。上表中的梳理中可以看到,NVDIA的产业涉及到了比较全的领域。从游戏到图形计算,从高性能计算到自动驾驶等。
 
按照型号梳理NVDIA中用于AI的具体产品
GPU型号
级别
芯片架构
主要参数
价格$
备注
B100
数据中心级
Blackwell
141GB HBM3,带宽 3.35TB/s,FP64 60 TFLOPS,
30~40K
基于H100主要提升了带宽和FP64 运算能力
H100
数据中心级
Hopper
14592 CUDA 核,456 Tensor 核,141GB HBM3,带宽 3.35TB/s,FP64 60 TFLOPS
30~40K
H200提升了带宽,HBM3en内存
A100
数据中心级
Ampere
6912 CUDA 核,432 Tensor 核,80GB HBM3,带宽 2TB/s,FP32 19.5 TFLOPS
10~12K
A系列显存分了两个版本40和80GB
RTX A6000
专业级
Ampere
10752 CUDA 核,336 Tensor 核,48GB GDDR6,带宽 768GB/s,FP32 38.7 TFLOPS
4.5~5K
早先主要用于设计和图像渲染领域
GeForce RTX
消费级
Ada Lovelace
16384 CUDA 核,512 Tensor 核,24GB GDDR6X,带宽 1TB/s,FP32 82.6 TFLOPS
1.5~2K
这个是大众接触最多的系列
自从GTC 2024之后,NVDIA恢复了GPU芯片架构的一年一升级的进度。目前其芯片架构最新的是Blackwell,下一代则是Rubin。熟悉移动互联网开发的读者可以已经感受到一些似曾相识,没错,15年前,Android和IOS也是保持这么,每年更新移动端操作系统的节奏。只不过是之前是操作系统,现在芯片架构也开启了快速迭代的时期。
 
为了追求更强大的算力,NVDIA还推出了,基于已有GPU的组合型产品。比如NVDIA DGX系列,最早是8个或16个V100,后来是4个A100。还有NVDIA HGX系列,集成了8个A100。
 
为了追求更强大的性能,NVDIA还推出了,GPU+CPU的组合产品,比如GB200 Grace Blackwell Superchip,然后同NVLink协议进行互联,或者通过NVSwitch进行更大GPU数量级的互联。
 
这里补充NVDIA产品系列中,常见的两个词:GeForce和RTX:
 
  • “GeForce”这个名称源自于NVIDIA在1999年举办的“Name That Chip”命名比赛,其中有人提出将其解释为“Geometry Force”,意为“几何力量”,突出了该系列GPU在3D几何运算(如变换和光照)上的强大性能。
  • “RTX”被理解为代表“Real-Time Ray Tracing”(实时光线追踪),其中“RT”专指光线追踪功能,而“X”则带有强调“极致性能”或“eXtreme”的意味。也就是说,RTX显卡在硬件上集成了专门的RT核心,加速光线追踪运算,从而实现更真实的光影效果。

Apple系列

 
产品型号
CPU(核数)
GPU(核数)
统一内存(G)
价格($)
推荐的AI适用场景
MacBook Pro
14/16
20/32/40
24/36/48/128
2499~4599
中型模型训练、高效推理
3199刀
MacBook Air
10
8/10
16/24/32
999~1859
小型模型推理
Mac Pro
24
60/76
64/128/192
6999~8439
大型模型训练、复杂推理任务
Mac Studio
14/16/28/32
32/40/60/80
36/96/256/512
1999~12689
大型模型训练、复杂推理任务
3329
Mac Mini
10/12
10/16
16/24/48/64
599~2019
小型模型推理、轻量训练
iMac
8/10
8/10
24/32
1299~1979
小型模型推理、轻量训练
特别说明的一点,作为Apple硬件的天花板,Mac Pro包含有Neural Engine,分为16和32核。
 
与NVDIA围绕GPU构建算力资源不同,Apple的硬件经过了大量的整合处理和专业优化,最显著的就是统一内存,这跟NVDIA通过NVLink构建更大算力显存的方式完全不同。但弊端就是不能像NVDIA那样,通过NVSwitch能够更庞大的AI算力服务器集群。

Cloud系列

 
厂商
主要产品
GPU型号
定价模式
参考价格
特点
AWS
Amazon EC2 P5
NVIDIA H100
按小时
$32.77/小时
全球覆盖最广,生态完善
Google Cloud
GCP A3
NVIDIA H100
按小时
$36.23/小时
与Google AI服务深度集成
Microsoft Azure
ND H100 v5
NVIDIA H100
按小时
$34.5/小时
Azure AI服务集成
Lambda Labs
Cloud GPU
NVIDIA H100
按小时
$1.99-$4.99/小时
为AI研究者优化的界面
CoreWeave
Cloud GPU
NVIDIA H100/A100
按小时
$2.06/小时起 (A100)
低延迟,高可用性
Runpod
Cloud GPU
多种NVIDIA GPU
按小时
$0.39/小时起 (RTX4090)
灵活计费,社区驱动
阿里云
GPU云服务器
NVIDIA A100/T4
按量付费/包月
¥66.97/小时 (A100)
国内覆盖广,服务完善
腾讯云
GPU云服务器
NVIDIA T4/V100/A100
按量付费/包月
¥62.5/小时 (A100)
游戏AI领域优势明显
百度云
GPU云服务器
NVIDIA V100/A100
按量付费/包月
¥25/小时起 (V100)
国内AI生态完善
华为云
AI计算服务
Ascend 910/NVIDIA V100
按量付费/包月
¥21/小时起 (V100)
自研昇腾芯片,混合架构
天翼云
AI云主机
NVIDIA V100/T4
按量付费/包月
¥28/小时起 (V100)
电信网络资源支持
星辰智慧
GPU算力平台
NVIDIA A100/H100/RTX
按量付费/长租
¥95/小时起 (H100)
覆盖消费级与专业级GPU
注:黄色北京代表国外厂商,白色背景代表国内厂商。
 
通过算力云厂商搭建算力的GPU型号,可以很明显得看出来,漂亮国对东大的高端芯片禁运政策的影子。国外的算力平台普遍基于NVDIA最领先的H100来构建,而国内的云厂商大都基于已经废弃的V100系列,或者专业级的A100来搭建算力云。
 
上表中有一行是表红色的,作者专门花了点时间去查了这家公司,只找到了深圳地区一家公司,且注册资金在500万,通过算力平台的资金量级初步判断,大概率这条信息就是大模型的幻觉。

搭建自己的AI生产力平台

 
有了以上大模型的梳理和三类硬件平台的讨论,接下来我们就可以结合自身的条件:如预算、技术能力储备、应用场景等,来考虑如何搭建自己的AI生产力平台。
 
这里遵循一个简单的构建思路:根据大模型参数确定大致的硬件配置,然后根据预算、应用场景等条件综合考虑确定具体的硬件方案。
 
上面我们讨论过大模型的总参数量,7B算是小型模型中比较有代表性的一个参数量级,这里就以7B为例,详细介绍如何计算所需资源配置。
 
在部署深度学习模型时,内存(RAM)和显存(GPU内存)的需求主要取决于三部分:模型的参数数量、数据类型以及推理或训练过程中所需的中间计算存储。
 
以deepseek-r1 7B的大模型为例,其参数量为30亿。常见的数据类型为FP32(占4个Byte)、FP16(占2个Byte)。则内存需求 = 参数量 * 精度所占字节数。
如果以FP16来计算的话,则内存需求为70亿 * 2 =14G。有一个快速计算的方法,内存需要一般为模型参数至少1.5倍,所以7B的大模型所需的内存大小为10.5G。
 
此外,大模型实际的运行过程中,对于CPU的需求还需要考虑操作系统类型、训练框架(如PyTorch)、数据预处理、所以对于CPU的内存来讲需要至少得12~16G。
 
针对于GPU的显存计算,则需要考虑到具体场景:预训练和推理。

推理场景

 
考虑模型参数、推理过程参数量。
 
  • 基础模型加载:FP16需14G。
  • KV缓存(生成时动态占用):
    • 每Token缓存 ≈ 2 × 层数 × 隐藏维度 × 注意力头数。
    • 示例:32层、4096隐藏维、32头 → 每Token约2MB,1k Token需2 GB。
  • 总显存:模型加载 + KV缓存 ≈ 14 GB + 2 GB = 16 GB(FP16)。
 
吞吐量与延迟
  • 计算量:每Token约2 × 参数量 FLOPs = 14 GFLOPs。
  • A100理论峰值:312 TFLOPS → 22,285 Tokens/秒(实际受带宽限制约500-1000 Tokens/秒)。
 
推理可能是用户使用AI的绝大部分场景,需要涉及到购买硬件一般是两类人群:具有技术专业能力的个体和想做AI商业的中小团队。
 
对于资金相对宽裕的用户,比如说中小团队,比较推荐NVIDA专业级显卡A6000,或者A100。基于上面的讨论,还可以考虑Mac Pro.
 
对于资金有限的用户,比较推荐GeForce RTX 5090/4090。相对更推荐4090,因为两款GPU实际测试下来,5090提升的相对有限,所以4090更具有性价比。

预训练场景

考虑参数、梯度、优化器、中间激活值(与批次大小和序列长度相关)。
  • 参数+梯度:14 GB(FP16参数) + 14 GB(FP16梯度)= 28 GB。
  • 优化器状态(Adam):
    • FP32参数副本:7B × 4字节 = 28 GB。
    • 动量与方差:7B × 4字节 × 2 = 56 GB。
    • 总计:28 + 56 = 84 GB。
  • 中间激活值:与批次大小和序列长度相关。例如,序列长度2048+大批次可能占用数十GB。
  • 总显存需求:28 GB(参数+梯度) + 84 GB(优化器) + 激活 ≈ 120-150 GB
 
解决方案:
  • 多GPU并行:使用ZeRO-3优化(DeepSpeed)分割优化器状态,显存需求可降至单卡约 20-30 GB
  • 推荐硬件:8×NVIDIA A100 80GB或4×H100 80GB,支持数据并行+ZeRO优化。
 
计算量估算
  • 训练FLOPs ≈ 6 × 参数量 × Token数(如1T tokens) = 4.2e+22 FLOPs。
  • GPU算力:A100 FP16算力≈ 312 TFLOPS,H100≈ 989 TFLOPS。
  • 训练时间(8×A100):
    • 有效算力(考虑30%效率):8 × 312e12 × 0.3 = 7.5e14 FLOPS。
    • 时间 ≈ 4.2e22 / 7.5e14 ≈ 64万秒(约7.4天)
 
预训练场景往往针对的事企业用户,根据资金情况可以分为两种情况:
  • 不差钱的用户首推A100,这样既能满足训练也能用于推理。
  • 资金有限的企业,比如中小企业,推荐专业级的显卡如A6000或者A100;对于追求大模型质量和性能的用户,还有一种方案是训练使用云算力的顶级配置,日常推理配合A6000或A100也是比较经济的一种方案。
 
对于大厂、数据中心、云厂商等资金实力强悍的客户,自然是比较推荐H100,或者NVDIA的集群方案。
 
这里也以Deepseek为例,给出其他参数量级所推荐的参考GPU配置。
notion image
 
以上是基于对大模型不做优化场景下,估算其所需资源配置的情况。其实也可以通过一些技术手段,对大模型进行降低规模,达到在较低资源配置上运行的目的,其中之一的技术方案便是模型量化。

模型量化

 
压缩大模型运行时需要的配置,可以分为两种方法:4位量化和8位量化。
 
以4为量化法为例:
从 Hugging Face下载 DeepSeek 模型(如 R1-7B)。主要有以下两个方法。
  • 使用 llama.cpp 的 quantize 脚本转换为 4 位:
  • 在 PyTorch 中使用 bitsandbytes 加载 4 位模型
 
社区反馈:Reddit 和 X 上用户报告,DeepSeek R1-7B 在 4 位量化后显存需求降至 5-6GB,性能损失约 5%-10%。
notion image

最后

这里简单梳理总结下全文的主要内容:
 
  • GPU承担大规模并行计算:在AI时代,CPU更多承担的是模型的加载、预处理与任务调度,真正执行计算的是GPU。
  • 模型参数与硬件内存、显存之间的关系:参数量级决定了大模型的智慧程度,内存决定了能加载多大的模型文件,显存决定了能运行多大的模型参数和中间结果。
  • 模型训练更需资金实力:用于训练普遍需要更强的硬件,用于推理或者微调则对显卡的要求较小。
中小企业硬核接入大模型:用QLoRA微调Google大模型Gemma-3微调实战六步造神!揭秘千亿参数通用大模型诞生全流程:从海量数据到人工智能
Loading...
Taylor
Taylor
基于大数据+AI,通过数字化、智能化,帮助个人和中小企业实现持续的商业价值。
Latest posts
AIGC时代,如何搭建自己的大模型生产力平台
2025-4-9
中小企业硬核接入大模型:用QLoRA微调Google大模型Gemma-3微调实战
2025-4-9
六步造神!揭秘千亿参数通用大模型诞生全流程:从海量数据到人工智能
2025-4-9
从神经网络到自注意力机制:一步一步拆解Transformer底层原理
2025-4-2
AI颠覆数据分析!Google最新AI产品Data Science Agent让你秒变数据科学家
2025-3-12
接棒DeepSeek,Manus带来AI Agent最新工程实践
2025-3-9
Announcement
🎉2025-01-01:
热烈祝贺小鲸数据正式上线!