type
status
date
slug
summary
tags
category
icon
password
AI Agent的元年,大模型走进企业的第一步,就是要大模型的领域适配。如何微调大模型,是企业接入大模型的重要话题。
 
阅读本文收益:
  • 企业微调大模型的主要步骤有哪些?
  • 一个医疗领域的大模型微调实战案例。
  • 文末给出了高价值的企业微调实战学习资料

什么是大模型微调?

 
微调的本质是利用了迁移学习技术,即从预训练模型开始,通过特定数据集进一步训练以提高特定领域的性能。
 
主要方法包括:
  • 全微调(Full- Fine-tuning):重新训练整个模型,更新所有参数权重,效果显著但资源密集。
  • 参数高效微调(PEFT):仅更新少量参数(如 ),减少计算需求,适合资源有限的企业。常见技术有:LoRA(Low-Rank Adaptation)、QLoRA、P-tuning(前缀调优)、Adapter等。
  • 蒸馏:训练较小模型模仿较大模型的行为,降低数据需求。
  • 指令微调(Instruction Tuning)与RLHF(人类反馈强化学习)
 
本文重点讨论性价比超高的高参微调,助力中小企业在垂直领域中落地大模型。

为什么需要大模型微调?

常见的通用大模型(o1、Claude Sonnet3.7、DeepSeek),本质上都是在基于公开、通用的数据集上训练未来的知识,而对于中小企业,业务大都是面向特定领域、特定行业。那些通用大模型往往给不出有价值的反馈,甚至会有更多幻觉出现。
 
而从0到1再去训练一个大模型的电力、算力、数据集等,远远超出中小企业能够负担的范畴,因此,基于已有已经训练好的预训练模型,结合领域数据集,通过使用特定技术手段,训练出一个专有大模型,成了企业接入大模型能力的最佳实践。
 
总结来讲,企业微调主要有几大优点:
  • 提升模型推理 表现(大模型视角):原始大模型通常是在大规模通用数据上训练的,可能对一些专业任务理解不够深入。微调能够在企业特定数据上进一步训练,从而改善模型在特定任务上的表现,减少误判和错误回答。
  • 满足特定领域需求(企业视角):企业通常拥有自己独特的业务场景和专业术语。通过微调大模型,可以使模型更好地理解和处理行业内特定的信息,从而提高准确率和响应的相关性。
  • 数据隐私与安全(数据安全视角):企业内部数据往往包含敏感信息,直接使用公共模型可能会引发隐私或安全问题。通过在企业内部环境中进行微调,可以确保数据安全,避免将敏感信息泄露给外部模型服务提供商。
  • 满足合规要求(监管视角):许多行业都有严格的合规和监管要求,尤其是金融、医疗和法律等领域。微调模型可以使其输出符合企业自身和行业的合规标准,降低法律风险。
  • 提升用户体验与效率(用户视角):经过微调的模型能够更好地适应企业内部系统和用户需求,提供更为精准和及时的响应。这不仅能提高内部工作效率,也能为客户提供更好的服务体验。
 

大模型微调一般流程是怎样的?

跟预训练的流程大体相似,微调也是一个工程化流程:数据准备大模型选择微调策略训练与评估模型优化、部署与监控,且随着业务的需求需要不断的迭代,这个流程也处在不断的自动化迭代。
 

数据准备

了解数据准备阶段的常见操作,如收集、清洗、标注与管理。并能够对处理好的数据进行质量的评估,并通过使用数据增强技术来提高数据的质量。企业环境下,通常会通过流程标准化之后进行自动化处理,或引入第三方的数据管理平台,来提高此阶段数据处理的效率。
 
数据的质量决定了模型的上限。在数据的准备阶段,还需要对数据进行清洗和处理。比如处理噪声数据(如去重、纠错、对抗样本过滤),并利用主动学习(Active Learning)优化标注成本。
 
有时候还需要进行一些数据增强操作。比如文本领域的回译(Back Translation)、词替换(如EDA)、合成数据生成。多模态领域的图像裁剪、文本-图像对齐增强。
 
数据集的格式:
比较常见的有,斯坦福指令格式Alpaca,还有一种是OpenAI常用的基于对话性质的ShareGPT格式,微调中的第一步,就是按照模型支持的数据格式去准备或者转换数据集。

大模型选择

 
市场上支持微调的大模型有很多,怎么去找个合适的那一个呢?企业在选择微调大模型时,需要平衡任务需求、算力成本、许可要求和开发生态。
 
任务类型:
  • 文本生成(如医疗报告生成、患者问答)→ 选择生成式模型(如 LLaMA-2、Qwen、ChatGLM)。
  • 文本理解(如病历分类、实体识别)→ 选择编码器-解码器或纯编码器模型(如 BERT 变种)。
  • 多轮对话(如医患对话模拟)→ 选择对话优化模型(如 Baichuan、ChatGLM3)。
 
模型规模与计算资源
  • 资源充足(多卡 A100/H100):可尝试 7B-13B 参数模型(如 Qwen-14B)。
  • 资源有限(单卡 24G 显存):选择 7B 以下模型(如 ChatGLM3-6B)或使用 LoRA/P-Tuning 微调技术。
  • 边缘设备部署:考虑 1B-3B 小模型(如 Phi-2、MiniCPM)。
 
语言支持
  • 中文医疗任务:优先选择原生支持中文的模型(Qwen、ChatGLM、Baichuan)。
  • 英文医疗任务:可考虑 LLaMA-2Mistral 或领域专用模型(如 BioBERT)。
 
最后需要考虑模型的许可,用于学术场景(LLaMA-2、ChatGLM)一般问题不大,但要是商业场景(Falcon、Qwen等),得需要留意开源大模型的协议内容。同时要考虑大模型的生态和社区支持,这有利于找到好用的工具和遇到问题时的解答。建议先基于 Hugging Face 或类似平台上的模型进行试验,再根据实际效果和资源情况选择合适的模型进行部署和商业化应用。
 

微调策略

 
具体的微调策略有很多种:全参数微调、部分参数微调(如LoRA(Low-Rank Adaptation))、适配器(Adapter)微调、提示词微调等。
 
选用哪种微调策略,取决于业务需求、数据量、计算资源、任务复杂度。还有一种通用的策略,即超参数优化:调整学习率、批量大小(batch size)、训练轮数(epochs)等超参数,以优化微调效果。
 

训练与评估

 
这个环节涉及到具体的训练场景。使用准备好的企业数据对模型进行微调,监控训练过程中的损失值和验证集上的性能。
 
训练所使用的深度学习框架有:PyTorch(推荐)或TensorFlow,掌握分布式训练如torch.distributed。相对更加底层训练方法可能会使用到的库:PRFT、LoRA、transformer等。
 
当然也可以使用别人已经封装好的微调工具,如unsloth、Llama Factory(多显卡场景)、ms-SWIFT、ColossalAI(多节点分布式训练场景)。
 
微调完之后,需要对模型进行评估,在与业务相关的测试集上评估模型,使用任务特定的指标,例如:
  • 分类任务:准确率(Accuracy)、F1分数。
  • 生成任务:BLEU、ROUGE分数。
  • 对话任务:用户满意度或流畅性。
 
同时对每次测试通过的模型,进行模型版本管理和实验过程的追踪,这里可以借助一些工具来处理(MLflow、Weights等)。

模型优化

 
在实际的部署之前,可能还会对模型进行量化(quantization)或剪枝(pruning),以减小模型体积,提升推理速度,适应企业资源限制。
 
进一步的,还可以通过模型蒸馏(Distillation)技术,训练一个更小的模型来模仿大模型的行为,降低计算需求,同时尽量保留性能。

大模型微调最佳实践

实践前的考虑因素

 
最佳实践核心关注三项内容:
  • 确保数据质量:数据决定模型的上线,使用干净、相关且多样化的数据集。
  • 模型的选择,根据算力资源、中英文支持等内容,确定一个合适得预训练且支持微调的大模型。
  • 调整超参数:如学习率、批次大小和训练轮数,避免过拟合。
 
工具与平台
企业常用工具包括 Hugging Face(用于模型和数据集)、TensorFlow 和 PyTorch(深度学习框架)。平台如 SuperAnnotate 和 Snorkel AI 提供数据注释和微调支持,特别适合企业需求。例如,SuperAnnotate 博客 提供了最新 AI 新闻和案例研究,Hugging Face 博客 更新了转换器模型和微调技术。
 
算力考量
7B的参数量,如果使用全参微调的话,显存推荐选80G的A100。如果使用LoRA微调的话,显存大约需要在20~24G之内。这两种方式比较推荐考虑云或者算力平台的方式,这种方式在成本和速度方面都不错。
 
对于只是想熟悉下完整的微调过程的用户的话,可以考虑使用Google的Colab,平台提供的是T4/V100(V100有16G和32G两个版本),这个时候可以使用QLoRA(4-bit 量化 + LoRA),这种量化技术下对显存的要求可降至12-16GB,可以在代码中优化配置。
 
企业环境下问答系统最为常见,行业有很多:法律、医疗、金融、电商,这里就主要讨论医疗和行业。

医疗领域微调实战

基于中文-算力云-LM Studio环境,微调一个企业问答大模型。

任务分析与环境搭建

 
数据集:medical
模型考量:中文数据集,比较推荐使用Qwen或DeepSeek。本文使用Qwen作为演示。
算力环境:Google Colab
微调工具平台:使用流行开源工具Unsloth。
 

核心微调实战代码

模型选择
 
Unsloth支持很多开源大模型,其中包含有4位量化版本,比如Gemma3的4bit版本。
 
Google的免费版本GPU(是有一定的免费额度),显存为15G,所以我们选择高效参数微调QLoRA的方式进行大模型微调。
 
数据准备
对数据集来说,除了质量之外,重要的就是数据集的格式了,不同的大模型微调所支持的数据格式不一样,所以必要时可以使用一些脚本程序,完成数据格式的转换。
 
Gemma 3支持的是如上所示的多轮对话,
 
我们所使用的是conversations的数据集格式,所以这里需要做一层数据格式转换。
 
模型训练
 
Huggingface已经把高参微调封装成了SFTTrainer,这里所要做的就是各种微调所需要的各种参数配置。
 
执行大模型的训练,这个会给出训练过程中的各种训练配置信息。
 
推理测试
 
微调好的模型可以使用这种方式,来测试评估微调训练的效果。到这一步,如果效果不好,就可能涉及到多轮调整,比如参数的调整,数据的调整。
 
模型保存与调用
对微调好的模型进行保存,目前保存有多种格式:LoRA adapters、vllm、gguf。
 
这里以GGUF为例,将保存好的模型上传到Huggingface账户上,之后就可以利用Ollama等方式进行下载并本地化部署。
 

本地部署与测试

这是令人激动人心的环境,根据资源环境、并发、吞吐、延迟等要求,可以有不同的部署方案。这里梳理了一个表格,大家参考:
 
方案
吞吐量
延迟
适用场景
Transformers
快速验证、低并发
vLLM
生产环境、高并发
TGI
最高
最低
企业级部署、多 GPU 扩展
具体的方案选定好,完整的部署需要经过以下几步:
 
模型合并
微调训练好的模型,在生产环境部署的时候,需要将自定义微调后的模型与预训练的模型,通过权重合并导出更为通用的格式:
 
 
API封装
 
使用Flask或者vLLM的方式,对大模型进行API化的封装。
 
API管理级别,在封装的基础上,可以对API做些更为安全的配置,比如对API增加API Key的验证、速率限制、额度管理等内容。
 
在运维级别,对API考虑性能监控、负载均衡、安全加固等操作。
 
容器化部署
  1. 编写Dockfile文件
  1. 构建并运行容器
 
至此,大模型生产环境下的部署就完成了。

企业中集成大模型的考虑与挑战

隐私、集成与迭代

 
企业环境中微调涉及独特挑战,包括数据隐私、合规性和系统集成。以下是关键考虑:
  • 数据隐私与合规:确保微调过程符合法规,如 GDPR。建立对数据的分类分级、脱敏、审计等需求。
  • 系统集成:学习如何将微调模型集成到现有企业系统中。例如,SuperAnnotate 的 Python SDK 与 Databricks 集成,简化数据处理和模型训练。
  • 硬件需求:微调通常需要 GPU/TPU,内存至少 16GB,支持分布式训练。云解决方案如 AWS、Azure 和 Google Cloud 适合企业扩展。
  • 持续迭代:微调是一个持续过程,且AI是个技术不断推陈出新的领域,这就需要关注行业动态(推荐 SuperAnnotate 博客Hugging Face 博客 ),参与社区讨论等方式,保持对AI前沿内容的敏感。建议关注行业动态,通过了解最新研究。
 

微调与RAG对比分析

 
微调和RAG都是两种调整大模型性能的方案,本质的区别在于是否对大模型进行调整。
 
从训练角度来看,RAG不需要相对复杂且陈本高的训练过程,通过构建外部知识库、检索系统结合大模型的能力,就能补充大模型在领域内的知识。而微调则需要按照大模型的完整条件,数据集的准备和算力资源的配置。
 
从推理视角来看,很明显微调之后的模型只需要封装成API,就可以对外提供高效的服务。而RAG则需要每次访问的使用,需要额外的系统支持,且随着知识库规模的增加,这个检索性能也会受影响。
 
从技术实现角度看,RAG需要检索算法与生成模型的配合,且需要对检索结果进行重排。
 
企业环境下,可以根据项目的周期、项目资金情况,团队的技术水平等因素进行考量。
 
最后,大模型的认识和学习,是一个比较偏实用且需要偏手动实践的事情。这里推荐一些学习资源:帮助你掌握技术细节,初学者可以参考DataCamp,有技术基础的可以考虑DeepLearning.AI ,对于企业的工程师可以参考W&B
人、事、组织:对抗数据熵增的三大利器AIGC时代,如何搭建自己的大模型生产力平台
Loading...
Taylor
Taylor
基于大数据+AI,通过数字化、智能化,帮助个人和中小企业实现持续的商业价值。
Latest posts
AIGC时代,如何搭建自己的大模型生产力平台
2025-4-9
中小企业硬核接入大模型:用QLoRA微调Google大模型Gemma-3微调实战
2025-4-9
六步造神!揭秘千亿参数通用大模型诞生全流程:从海量数据到人工智能
2025-4-9
从神经网络到自注意力机制:一步一步拆解Transformer底层原理
2025-4-2
AI颠覆数据分析!Google最新AI产品Data Science Agent让你秒变数据科学家
2025-3-12
接棒DeepSeek,Manus带来AI Agent最新工程实践
2025-3-9
Announcement
🎉2025-01-01:
热烈祝贺小鲸数据正式上线!