大语言模型生态全景解析
大语言模型(Large Language Model, LLM)是近年来人工智能领域最重大的突破之一。从 GPT 到 Claude,从通义千问到文心一言,大模型正在深刻改变我们的生活和工作方式。本文将全面解析大模型生态,包括主要厂商、模型分类、核心技术和发展趋势。
大模型发展时间线
大模型发展里程碑
2017 Transformer 架构发布 (Attention Is All You Need)
│
2018 GPT-1 (1.17亿参数) | BERT (3.4亿参数)
│
2019 GPT-2 (15亿参数)
│
2020 GPT-3 (1750亿参数) - 大模型元年
│
2021 CLIP | DALL-E | Codex
│
2022 ChatGPT 发布 - AI 应用爆发年
│
2023 GPT-4 | Claude | Bard | 文心一言 | 通义千问
│
2024 GPT-4o | Claude 3.5 | Gemini 1.5 | Llama 3
│
2025 o1/o3 推理模型 | 多模态大模型普及
│
2026 GPT-5 | Claude 4 | Gemini 2 | Qwen3.5 | GLM-5 | DeepSeek-R1
Agent 智能体爆发 | 视频生成模型竞争 | 端侧大模型普及
2026年最新动态:
- OpenAI 发布 GPT-5,推理能力大幅提升
- Anthropic 推出 Claude 4 系列,编程能力对标 GPT-5
- Google 发布 Gemini 2,多模态能力全面增强
- 阿里 开源 Qwen3.5 系列,衍生模型突破10万,超越 Llama 成为全球第一开源大模型体系
- 智谱 发布 GLM-5(7440亿参数),开源 SOTA,编程能力逼近 Claude Opus 4.5
- DeepSeek 开源 R1 模型,以600万美元训练成本实现接近 GPT-4 性能,推动大模型普惠化
- MiniMax 发布 M2.5 模型,登顶 OpenRouter 调用量榜首
- 字节 发布豆包 2.0 Pro 和 Seed 2.0 系列,端侧部署能力突出
- 视频生成:可灵、Vidu、Seedance 与 Sora 正面竞争,部分维度实现反超
国际主要厂商及模型
OpenAI
OpenAI 是大语言模型领域的先驱和领导者。
主要模型:
| 模型 | 参数规模 | 特点 | 擅长领域 |
|---|---|---|---|
| GPT-4 | 未公开 | 多模态、强推理 | 通用对话、代码生成、创意写作 |
| GPT-4o | 未公开 | 原生多模态、实时交互 | 语音对话、图像理解、实时翻译 |
| o1/o3 | 未公开 | 推理优化、思维链 | 数学推理、科学计算、复杂问题求解 |
| GPT-4 Turbo | 未公开 | 长上下文、知识更新 | 长文档处理、知识问答 |
| DALL-E 3 | 未公开 | 图像生成 | 艺术创作、设计原型 |
技术特点:
- 基于 Transformer 的 Decoder-only 架构
- RLHF(人类反馈强化学习)训练
- 多模态融合能力
- 工具使用(Function Calling)
# OpenAI API 使用示例
from openai import OpenAI
client = OpenAI(api_key="your-api-key")
# 文本对话
response = client.chat.completions.create(
model="gpt-4",
messages=[
{"role": "system", "content": "你是一个有帮助的助手。"},
{"role": "user", "content": "解释什么是大语言模型"}
],
temperature=0.7,
max_tokens=1000
)
print(response.choices[0].message.content)
# 多模态(图像理解)
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "描述这张图片"},
{
"type": "image_url",
"image_url": {"url": "https://example.com/image.jpg"}
}
]
}
]
)
# 函数调用(工具使用)
functions = [
{
"name": "get_weather",
"description": "获取指定城市的天气",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名称"},
"date": {"type": "string", "description": "日期"}
},
"required": ["city"]
}
}
]
response = client.chat.completions.create(
model="gpt-4",
messages=[{"role": "user", "content": "北京明天天气怎么样?"}],
functions=functions,
function_call="auto"
)Anthropic
Anthropic 专注于 AI 安全,其 Claude 系列模型以长上下文和安全性著称。
主要模型:
| 模型 | 上下文长度 | 特点 | 擅长领域 |
|---|---|---|---|
| Claude 3 Opus | 200K | 最强性能 | 复杂推理、代码生成、学术研究 |
| Claude 3.5 Sonnet | 200K | 性价比最优 | 日常对话、内容创作、数据分析 |
| Claude 3 Haiku | 200K | 快速响应 | 实时应用、简单问答 |
| Claude 3.5 Sonnet (New) | 200K | 增强版 | 编程、视觉理解、工具使用 |
技术特点:
- Constitutional AI(宪法 AI)训练方法
- 超长上下文窗口(200K tokens)
- 出色的代码理解和生成能力
- 强大的文档分析能力
# Anthropic API 使用示例
from anthropic import Anthropic
client = Anthropic(api_key="your-api-key")
# 长文档处理示例
long_document = """[这里可以放入整本书或长文档的内容...]"""
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=4000,
messages=[
{
"role": "user",
"content": f"请总结以下文档的主要观点,并提取关键信息:\n\n{long_document}"
}
]
)
print(response.content[0].text)
# 代码生成示例
response = client.messages.create(
model="claude-3-opus-20240229",
max_tokens=2000,
system="你是一个专业的 Python 开发者,擅长编写清晰、高效的代码。",
messages=[
{
"role": "user",
"content": "请实现一个 LRU 缓存,要求线程安全,并包含单元测试。"
}
]
)Google (DeepMind)
Google 通过 DeepMind 和 Google Brain 合并后的团队开发 Gemini 系列模型。
主要模型:
| 模型 | 参数规模 | 特点 | 擅长领域 |
|---|---|---|---|
| Gemini Ultra | 未公开 | 最强版本 | 复杂推理、多模态任务 |
| Gemini Pro | 未公开 | 平衡性能 | 通用对话、内容生成 |
| Gemini Flash | 未公开 | 轻量快速 | 边缘设备、实时应用 |
| Gemini 1.5 Pro | 未公开 | 超长上下文(100万 tokens) | 视频分析、长文档处理 |
技术特点:
- 原生多模态架构(从训练开始就是多模态)
- 超长上下文窗口(最高 1000 万 tokens)
- 与 Google 生态系统深度集成
- 强大的数学和科学推理能力
# Google Gemini API 使用示例
import google.generativeai as genai
genai.configure(api_key="your-api-key")
# 文本模型
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("解释量子计算的基本原理")
print(response.text)
# 多模态模型
model = genai.GenerativeModel('gemini-pro-vision')
import PIL.Image
img = PIL.Image.open('image.jpg')
response = model.generate_content(
["描述这张图片的内容", img]
)
# 流式输出
response = model.generate_content(
"写一个关于人工智能的短篇故事",
stream=True
)
for chunk in response:
print(chunk.text, end='')
# 聊天会话
chat = model.start_chat(history=[])
response = chat.send_message("你好!")
response = chat.send_message("你能做什么?")Meta (Facebook)
Meta 以开源策略著称,Llama 系列模型推动了开源大模型的发展。
主要模型:
| 模型 | 参数规模 | 特点 | 擅长领域 |
|---|---|---|---|
| Llama 3 405B | 4050亿 | 开源最强 | 通用任务、研究应用 |
| Llama 3 70B | 700亿 | 高性能 | 生产环境、复杂任务 |
| Llama 3 8B | 80亿 | 轻量级 | 边缘设备、快速推理 |
| Code Llama | 7B-70B | 代码专用 | 代码生成、代码补全 |
技术特点:
- 完全开源(权重和架构)
- 高效的训练方法
- 优秀的代码生成能力(Code Llama)
- 社区生态丰富
# 使用 Hugging Face Transformers 加载 Llama
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
messages = [
{"role": "system", "content": "你是一个有帮助的助手。"},
{"role": "user", "content": "解释什么是机器学习"}
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
outputs = model.generate(
input_ids,
max_new_tokens=256,
do_sample=True,
temperature=0.7,
top_p=0.9
)
response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)Microsoft
Microsoft 与 OpenAI 深度合作,同时开发自己的模型。
主要模型:
| 模型/产品 | 基础模型 | 特点 | 擅长领域 |
|---|---|---|---|
| Copilot | GPT-4 | 办公集成 | 文档处理、代码编写、会议总结 |
| Phi-3 | 自研 | 小模型高性能 | 边缘设备、移动应用 |
| Azure OpenAI | GPT-4/3.5 | 企业级服务 | 企业应用、合规场景 |
技术特点:
- 与 Microsoft 365 深度集成
- 企业级安全和合规
- 小模型优化(Phi 系列)
xAI
Elon Musk 创立的 xAI 开发了 Grok 系列模型。
主要模型:
| 模型 | 特点 | 擅长领域 |
|---|---|---|
| Grok-1 | 开源、实时信息 | 实时问答、新闻分析 |
| Grok-1.5 | 增强推理 | 数学、编程 |
| Grok-2 | 最新版本 | 通用对话、图像生成 |
技术特点:
- 实时访问 X(Twitter)数据
- 幽默、叛逆的对话风格
- 开源策略
国内主要厂商及模型
阿里巴巴
通义千问(Qwen) 系列是阿里巴巴的大模型产品。
| 模型 | 参数规模 | 特点 | 擅长领域 |
|---|---|---|---|
| Qwen3.5-Plus | 未公开 | 2026年最新版本 | 复杂任务、企业应用 |
| Qwen3.5-397B-A17B | 3970亿 | 开源旗舰版 | 研究、高性能应用 |
| Qwen3-Coder-Next | 80B (激活3B) | 编程智能体专用 | 代码生成、Agent 开发 |
| Qwen-Max | 未公开 | 最强版本 | 复杂任务、企业应用 |
| Qwen-Plus | 未公开 | 平衡性能 | 通用对话、内容创作 |
| Qwen2-72B | 720亿 | 开源经典 | 研究、自定义应用 |
| Qwen2-VL | 多模态 | 视觉理解 | 图像分析、文档理解 |
| CodeQwen | 代码专用 | 编程助手 | 代码生成、代码审查 |
2026年最新动态:
- Qwen3.5 系列 发布,包含 Plus 和 397B-A17B 两个版本,均支持文本和多模态任务
- Qwen3-Coder-Next 专为编程智能体设计,80B总参数仅激活3B,在 SWE-Bench Verified 上实现超70%问题解决率,媲美激活参数规模大10-20倍的稠密模型
- 通义千问衍生模型突破 10万,超越 Llama 成为全球第一开源大模型体系
- 阿里云百炼推出 CodingPlan,支持 Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5 四大开源模型自由切换
- 2025年下半年,通义千问在中国企业级大模型日均调用量占比跃升至 32.1%,领先优势扩大
技术特点:
- 中英双语优化,中文古籍理解准确率达92.3%
- 开源模型性能领先,支持混合精度训练,显存占用降低40%
- 多模态能力强,支持3D模型生成(精度达0.1mm)、长视频摘要
- 代码生成专业,电商商品描述生成准确率达98%
# 通义千问 API 使用示例
import dashscope
from dashscope import Generation
dashscope.api_key = "your-api-key"
response = Generation.call(
model="qwen-max",
messages=[
{"role": "system", "content": "你是一个有帮助的助手。"},
{"role": "user", "content": "解释什么是大语言模型"}
]
)
print(response.output.text)
# 多模态示例
from dashscope import MultiModalConversation
messages = [
{
"role": "user",
"content": [
{"image": "https://example.com/image.jpg"},
{"text": "描述这张图片"}
]
}
]
response = MultiModalConversation.call(
model="qwen-vl-max",
messages=messages
)百度
文心一言(ERNIE Bot) 是百度的大模型产品。
| 模型 | 特点 | 擅长领域 |
|---|---|---|
| ERNIE 4.0 | 最强版本 | 复杂推理、创作 |
| ERNIE 3.5 | 平衡版本 | 通用对话、知识问答 |
| ERNIE Speed | 轻量快速 | 实时应用 |
| ERNIE Lite | 端侧模型 | 移动设备 |
技术特点:
- 知识增强架构
- 中文理解能力强
- 与百度搜索生态结合
- 多模态能力
字节跳动
豆包(Doubao) 是字节跳动的大模型产品。
| 模型 | 特点 | 擅长领域 |
|---|---|---|
| 豆包 2.0 Pro | 2026年最新版本 | 复杂任务、企业应用 |
| Seed 2.0 系列 | 视觉与多模态优化 | 图像理解、视频分析 |
| Doubao-pro | 专业版 | 复杂任务、企业应用 |
| Doubao-lite | 轻量版 | 快速响应、移动应用 |
| Doubao-vision | 多模态 | 图像理解、视频分析 |
2026年最新动态:
- 豆包 2.0 Pro 正式上线,在豆包 App、PC 端及网页版全面开放
- Seed 2.0 系列 重点优化视觉与多模态理解、复杂指令执行能力,多款模型在行业基准测试中达到 SOTA 水平
- Stable-DiffCoder:华中科技大学和字节跳动联合推出的扩散代码模型,在 MBPP、BigCodeBench 等榜单上超越 Qwen2.5-Coder、Qwen3、DeepSeek-Coder 等开源模型
- 豆包在 OpenClaw 调用榜上登顶,证明其在 Agent 场景的强大能力
- 火山引擎同步开放全系列 API 服务,助力企业与开发者快速接入
技术特点:
- 与字节产品生态(抖音、今日头条等)深度集成
- 语音交互优化,情感交互准确率达85%,支持方言识别(粤语、川渝方言等)
- 多模态能力强,支持短视频脚本生成→特效建议→自动剪辑全流程
- 轻量化部署,iPhone 15 Pro Max 推理延迟低于300ms,成本仅为云端方案的1/10
智谱 AI
智谱 AI 的 ChatGLM 系列是开源社区的重要贡献。
| 模型 | 参数规模 | 特点 | 擅长领域 |
|---|---|---|---|
| GLM-5 | 7440亿 | 2026年开源 SOTA | 编程、Agent、复杂推理 |
| GLM-4 | 未公开 | 最强版本 | 通用对话、复杂推理 |
| GLM-4-9B | 90亿 | 开源版本 | 研究、轻量应用 |
| ChatGLM3-6B | 60亿 | 经典开源 | 学习、研究 |
| CodeGeeX | 代码专用 | 编程助手 | 代码生成、补全 |
2026年最新动态:
- GLM-5 正式发布,参数规模达7440亿,在 Artificial Analysis 榜单中位居全球第四、开源第一
- 编程能力实现对 Claude Opus 4.5 的对齐,在真实编程场景的使用体感逼近 Claude Opus 4.5
- 首次集成 DeepSeek Sparse Attention 稀疏注意力机制,在维持长文本理解无损的前提下显著提升 Token 效率
- 智谱成为国内首家对大模型商业化服务提价的 AI 原生企业,GLM Coding Plan 中国区涨价30%,海外版涨价超100%
- 发布《GLM Coding Plan 致歉信》,承认运营中规则透明度不足、灰度节奏过慢等问题,对受影响用户支持自主申请退款
技术特点:
- GLM(General Language Model)架构,兼顾理解和生成
- 开源友好,技术报告全面公开
- 中文优化,擅长复杂系统工程与长程 Agent 任务
- 代码生成专业,Coding 能力行业领先
# ChatGLM 使用示例
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained(
"THUDM/chatglm3-6b",
trust_remote_code=True
)
model = AutoModel.from_pretrained(
"THUDM/chatglm3-6b",
trust_remote_code=True,
device='cuda'
)
response, history = model.chat(
tokenizer,
"你好",
history=[]
)
print(response)
response, history = model.chat(
tokenizer,
"解释什么是机器学习",
history=history
)
print(response)月之暗面 (Moonshot AI)
Kimi 以超长上下文著称。
| 模型 | 上下文长度 | 特点 | 擅长领域 |
|---|---|---|---|
| Kimi K1.5 | 200万字符 | 超长上下文 | 长文档分析、论文阅读 |
| Kimi Chat | 20万字符 | 通用版本 | 日常对话、内容创作 |
技术特点:
- 超长上下文处理能力
- 中文文档理解
- 支持多种文件格式
DeepSeek(深度求索)
DeepSeek 是 2025-2026 年开源大模型领域的黑马,以高性价比和强推理能力著称。
| 模型 | 参数规模 | 特点 | 擅长领域 |
|---|---|---|---|
| DeepSeek-R1 | 未公开 | 开源推理模型 | 数学推理、代码生成 |
| DeepSeek-V3.2 | 未公开 | 通用版本 | 通用对话、内容创作 |
| DeepSeek-Coder | 代码专用 | 编程助手 | 代码生成、代码补全 |
2026年最新动态:
- DeepSeek-R1 开源发布,训练费用低于 600万美元,实现接近 GPT-4 的性能
- 采用 稀疏 MoE 架构,通过条件计算降低计算成本,推理成本仅为 GPT-4o 的 3%
- 支持 无 GPU 本地部署,中小企业与开发者可低成本使用
- GitHub 星标数超 10万,开源生态完善
- GSM8K 数学推理准确率达 98.7%,代码生成通过率 92%(Humaneval)
技术特点:
- 稀疏 MoE(混合专家)架构,动态激活专家层
- 推理能力接近人类系统2思维(深度逻辑推理)
- 高性价比,推动大模型技术普惠化
- 支持开发者二次微调,适配各类垂直场景
MiniMax
MiniMax 是 2026 年快速崛起的大模型厂商,M2.5 模型在 Agent 场景表现突出。
| 模型 | 参数规模 | 特点 | 擅长领域 |
|---|---|---|---|
| MiniMax M2.5 | 10B 激活参数 | Agent 原生设计 | 编程、工具调用、长文本 |
| MiniMax 文本模型 | 未公开 | 通用版本 | 通用对话、内容创作 |
| MiniMax 语音模型 | 未公开 | 语音合成 | 语音交互、音频生成 |
2026年最新动态:
- MiniMax M2.5 发布,定位为"全球首个为 Agent 场景原生设计的生产级模型"
- 发布一周内登顶 OpenRouter 调用量榜首,周调用量暴涨至 3.07T tokens
- 超过 Kimi K2.5、GLM-5 与 DeepSeek V3.2 三家总和
- 带动 100K 至 1M 长文本区间的增量调用需求,该区间为 Agent 工作流的典型消耗场景
- 激活参数量仅 10B,主打编程与智能体工作流能力,对标 Claude Opus 4.6
技术特点:
- 专为 Agent 场景原生设计
- 编程、工具调用及长文本处理能力突出
- 轻量化部署,10B 激活参数实现高性能
- 支持复杂智能体工作流
视频生成模型
2026年视频生成模型竞争激烈,国产模型实现重大突破。
| 模型 | 厂商 | 特点 | 性能 |
|---|---|---|---|
| Vidu Q3 | 生数科技 | 声画同出、1080P、导演级指令 | 中国第一、全球第二 |
| 可灵 | 快手 | 视频生成质量高 | 与 Sora 正面竞争 |
| Seedance | 字节跳动 | 原生多模态 | 部分维度超越 Sora |
| SkyReels V4 | Skywork AI | 多模态输入、联合音视频生成 | 全球第二 |
| Sora 2 | OpenAI | 原生多模态 | 行业标杆 |
| Grok 视频 | xAI | 实时信息结合 | 新闻视频生成 |
2026年最新动态:
- Vidu Q3 在 Artificial Analysis 榜单排名中国第一、全球第二,仅次于 xAI 的 Grok 视频生成模型
- Vidu Q3 支持 16s 声画同出、1080P 画质、丰富的镜头语言、精准切镜、多国文字渲染
- SkyReels V4 成为全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型
- 国产视频生成模型用密集的技术迭代,把"领跑"从口号变成了结果
- 可灵、Vidu、Seedance 已经能与 Sora 正面竞争,甚至在部分维度实现反超
其他国内厂商
| 厂商 | 模型 | 特点 |
|---|---|---|
| 腾讯 | 混元大模型 | 与微信、QQ 生态集成 |
| 华为 | 盘古大模型 | 行业应用、B端市场 |
| 商汤 | 日日新 SenseNova | 计算机视觉优势 |
| 科大讯飞 | 星火大模型 | 语音技术领先 |
| 零一万物 | Yi 系列 | 李开复创立,开源友好 |
| 蚂蚁集团 | 百灵大模型 | 万亿参数、混合线性注意力 |
Agent 智能体生态
2026年是 Agent 智能体爆发年,OpenClaw 等框架推动智能体应用普及。
OpenClaw 智能体框架:
- 20天内完成超过 10次更新
- Token 使用量一度飙升至 OpenRouter 平台总量的约 13%
- 重新定义人机交互方式,从"对话"到"执行"
- 让大模型能直接操作电脑桌面、调用各类工具,甚至拆解复杂任务
- Kimi K2.5 在 OpenClaw 调用榜上登顶
MCP(Model Context Protocol):
- Google、OpenAI、Microsoft 联合推动的 AI 工具交互通用接口
- 已被捐赠至开源社区,成为行业标准
- 实现 AI 与外部工具、数据源的标准化连接
智能体应用场景:
- 自动化办公:文档处理、数据分析、邮件回复
- 编程助手:代码生成、调试、测试
- 客户服务:多轮对话、问题解决、工单处理
- 内容创作:文案生成、视频脚本、多模态创作
大模型分类
按架构分类
大模型架构分类
├── 自回归模型 (Autoregressive)
│ ├── GPT 系列 (Decoder-only)
│ ├── Llama 系列
│ ├── Claude 系列
│ └── 特点:生成能力强,适合文本生成
│
├── 自编码模型 (Autoencoding)
│ ├── BERT 系列 (Encoder-only)
│ ├── RoBERTa
│ └── 特点:理解能力强,适合分类、抽取
│
├── 编码器-解码器 (Encoder-Decoder)
│ ├── T5
│ ├── BART
│ ├── GLM (ChatGLM)
│ └── 特点:兼顾理解和生成,适合翻译、摘要
│
└── 混合架构
├── Mamba (状态空间模型)
├── RetNet
└── 特点:线性复杂度,长序列优化按模态分类
| 类型 | 代表模型 | 能力 | 应用场景 |
|---|---|---|---|
| 文本模型 | GPT-4, Claude, Llama | 文本理解生成 | 对话、写作、编程 |
| 多模态模型 | GPT-4o, Gemini, Qwen-VL | 文本+图像+音频 | 图像理解、视频分析 |
| 代码模型 | Codex, CodeLlama, CodeQwen | 代码生成 | 编程助手、代码审查 |
| 语音模型 | Whisper, Qwen-Audio | 语音识别合成 | 语音交互、字幕生成 |
| 视频模型 | Sora, VideoPoet | 视频生成理解 | 视频创作、分析 |
按规模分类
| 规模 | 参数量 | 代表模型 | 应用场景 |
|---|---|---|---|
| 小型 | < 10B | Phi-3, Llama-3-8B | 边缘设备、移动端 |
| 中型 | 10B - 70B | Llama-2-70B, Qwen-72B | 生产环境、企业应用 |
| 大型 | 70B - 400B | GPT-3.5, Llama-3-405B | 复杂任务、研究 |
| 超大型 | > 400B | GPT-4, Gemini Ultra | 通用人工智能 |
按功能分类
功能分类
├── 基础模型 (Base Model)
│ └── 预训练后的通用模型
│
├── 对话模型 (Chat Model)
│ └── 经过指令微调和 RLHF 的模型
│ ├── ChatGPT
│ ├── Claude
│ └── 文心一言
│
├── 推理模型 (Reasoning Model)
│ └── 专门优化推理能力的模型
│ ├── OpenAI o1/o3
│ ├── Claude 3.5 (推理模式)
│ └── DeepSeek-R1
│
├── 代码模型 (Code Model)
│ └── 专门训练代码数据的模型
│ ├── Codex
│ ├── CodeLlama
│ └── CodeQwen
│
└── 多模态模型 (Multimodal Model)
└── 处理多种模态的模型
├── GPT-4o
├── Gemini
└── Qwen-VL核心技术解析
Transformer 架构
Transformer 是大模型的基础架构。
Transformer 架构
输入
│
▼
┌─────────────────┐
│ Embedding 层 │ 词嵌入 + 位置编码
└────────┬────────┘
│
┌────┴────┐
│ │
▼ ▼
┌───────┐ ┌───────┐
│Encoder│ │Decoder│
│(编码器)│ │(解码器)│
└───┬───┘ └───┬───┘
│ │
│ ┌────┴────┐
│ │ Masked │
│ │Multi-Head│
│ │Attention │
│ └────┬────┘
│ │
│ ┌────┴────┐
│ │ Multi-Head │
│ │ Attention │ 交叉注意力
│ └────┬────┘
│ │
│ ┌────┴────┐
│ │ Feed │
│ │ Forward │
│ └────┬────┘
│ │
│ [重复 N 层]
│ │
└────►┌───┴───┐
│ Linear│
│ Softmax│
└───┬───┘
│
▼
输出
核心组件:
- 自注意力机制(Self-Attention)
import torch
import torch.nn as nn
import math
class SelfAttention(nn.Module):
def __init__(self, embed_size, heads):
super(SelfAttention, self).__init__()
self.embed_size = embed_size
self.heads = heads
self.head_dim = embed_size // heads
assert (self.head_dim * heads == embed_size), "Embedding size must be divisible by heads"
self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)
self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)
self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)
self.fc_out = nn.Linear(heads * self.head_dim, embed_size)
def forward(self, values, keys, query, mask=None):
N = query.shape[0]
value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]
# 分割成多个头
values = values.reshape(N, value_len, self.heads, self.head_dim)
keys = keys.reshape(N, key_len, self.heads, self.head_dim)
queries = query.reshape(N, query_len, self.heads, self.head_dim)
values = self.values(values)
keys = self.keys(keys)
queries = self.queries(queries)
# 注意力计算: Q @ K^T
energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])
if mask is not None:
energy = energy.masked_fill(mask == 0, float("-1e20"))
attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=3)
# 加权求和: attention @ V
out = torch.einsum("nhql,nlhd->nqhd", [attention, values])
out = out.reshape(N, query_len, self.heads * self.head_dim)
out = self.fc_out(out)
return out
- 位置编码(Positional Encoding)
class PositionalEncoding(nn.Module):
def __init__(self, embed_size, max_len=5000):
super(PositionalEncoding, self).__init__()
pe = torch.zeros(max_len, embed_size)
position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(
torch.arange(0, embed_size, 2).float() *
(-math.log(10000.0) / embed_size)
)
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
pe = pe.unsqueeze(0).transpose(0, 1)
self.register_buffer('pe', pe)
def forward(self, x):
return x + self.pe[:x.size(0), :]训练技术
1. 预训练(Pre-training)
预训练方法
├── 语言建模 (Language Modeling)
│ ├── 自回归语言建模 (GPT)
│ │ └── 预测下一个词
│ └── 掩码语言建模 (BERT)
│ └── 预测被掩码的词
│
├── 去噪自编码 (Denoising Autoencoding)
│ └── T5: 重构被扰动的输入
│
└── 混合方法
└── GLM: 结合自回归和自编码2. 指令微调(Instruction Tuning)
# 指令微调数据格式示例
training_data = [
{
"instruction": "将以下英文翻译成中文",
"input": "Hello, how are you?",
"output": "你好,你好吗?"
},
{
"instruction": "解释以下概念",
"input": "机器学习",
"output": "机器学习是人工智能的一个分支..."
},
{
"instruction": "写一首关于春天的诗",
"input": "",
"output": "春风拂面柳丝长,..."
}
]
# 使用 Hugging Face TRL 进行指令微调
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer
from peft import LoraConfig
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b")
peft_config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config,
max_seq_length=512,
tokenizer=tokenizer,
packing=True,
args=TrainingArguments(
per_device_train_batch_size=4,
gradient_accumulation_steps=4,
num_train_epochs=3,
learning_rate=2e-4,
fp16=True,
logging_steps=10,
),
)
trainer.train()3. RLHF(人类反馈强化学习)
RLHF 流程
步骤 1: 训练奖励模型 (Reward Model)
├── 收集人类偏好数据
│ └── 对同一提示的多个回答进行排序
├── 训练奖励模型预测人类偏好
└── 输出: 奖励模型 RM
步骤 2: 使用 PPO 优化策略
├── 初始化: SFT 模型
├── 循环:
│ ├── 生成回答
│ ├── 奖励模型打分
│ ├── PPO 算法更新策略
│ └── KL 散度约束(防止模型偏离太远)
└── 输出: RLHF 优化后的模型# RLHF 简化示例 (使用 TRL 库)
from trl import PPOTrainer, PPOConfig
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加载模型
model = AutoModelForCausalLM.from_pretrained("sft-model")
ref_model = AutoModelForCausalLM.from_pretrained("sft-model")
tokenizer = AutoTokenizer.from_pretrained("sft-model")
# 加载奖励模型
reward_model = AutoModelForSequenceClassification.from_pretrained("reward-model")
# PPO 配置
config = PPOConfig(
model_name="sft-model",
learning_rate=1.41e-5,
batch_size=256,
)
# 初始化 PPO 训练器
ppo_trainer = PPOTrainer(
config=config,
model=model,
ref_model=ref_model,
tokenizer=tokenizer,
dataset=dataset,
data_collator=collator,
)
# 训练循环
for epoch in range(3):
for batch in ppo_trainer.dataloader:
# 生成回答
queries = batch["query"]
response_tensors = ppo_trainer.generate(queries)
# 解码回答
responses = tokenizer.batch_decode(response_tensors)
# 计算奖励
rewards = reward_model(queries, responses)
# PPO 更新
stats = ppo_trainer.step(queries, response_tensors, rewards)4. 推理优化技术
# 推理优化技术示例
# 1. KV Cache 优化
class KVCache:
"""键值缓存,避免重复计算"""
def __init__(self):
self.key_cache = []
self.value_cache = []
def update(self, key, value):
self.key_cache.append(key)
self.value_cache.append(value)
def get(self):
if not self.key_cache:
return None, None
return (
torch.cat(self.key_cache, dim=2),
torch.cat(self.value_cache, dim=2)
)
# 2. 量化 (Quantization)
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
)
model = AutoModelForCausalLM.from_pretrained(
"model-name",
quantization_config=quantization_config,
device_map="auto"
)
# 3. 投机解码 (Speculative Decoding)
def speculative_decoding(model, draft_model, prompt, max_tokens):
"""
使用小模型生成候选 token,大模型验证
"""
tokens = tokenize(prompt)
while len(tokens) < max_tokens:
# 小模型生成多个候选 token
draft_tokens = draft_model.generate(tokens, num_tokens=5)
# 大模型并行验证
logits = model.forward(tokens + draft_tokens)
# 接受或拒绝候选
accepted = verify_tokens(logits, draft_tokens)
tokens.extend(accepted)
return detokenize(tokens)
# 4. 连续批处理 (Continuous Batching)
class ContinuousBatching:
"""动态批处理,提高 GPU 利用率"""
def __init__(self, max_batch_size=16):
self.max_batch_size = max_batch_size
self.requests = []
def add_request(self, request):
self.requests.append(request)
def process_batch(self):
# 动态组合请求
batch = self._form_batch()
# 并行推理
outputs = model.generate(batch)
# 分发结果
for req, output in zip(batch, outputs):
req.callback(output)长上下文技术
# 长上下文处理技术
# 1. 位置编码外推
class RotaryPositionEmbedding(nn.Module):
"""RoPE 位置编码,支持外推"""
def __init__(self, dim, max_seq_len=2048):
super().__init__()
inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))
self.register_buffer('inv_freq', inv_freq)
def forward(self, seq_len):
t = torch.arange(seq_len, device=self.inv_freq.device)
freqs = torch.einsum('i,j->ij', t, self.inv_freq)
emb = torch.cat((freqs, freqs), dim=-1)
return emb.cos(), emb.sin()
# 2. 滑动窗口注意力
class SlidingWindowAttention(nn.Module):
"""局部注意力,降低长序列复杂度"""
def __init__(self, window_size=512):
super().__init__()
self.window_size = window_size
def forward(self, q, k, v, mask=None):
batch_size, seq_len, _ = q.shape
# 只关注窗口内的 token
outputs = []
for i in range(seq_len):
start = max(0, i - self.window_size)
end = min(seq_len, i + self.window_size + 1)
local_q = q[:, i:i+1]
local_k = k[:, start:end]
local_v = v[:, start:end]
attn = torch.softmax(local_q @ local_k.transpose(-2, -1), dim=-1)
output = attn @ local_v
outputs.append(output)
return torch.cat(outputs, dim=1)
# 3. Ring Attention
class RingAttention(nn.Module):
"""环形注意力,处理超长序列"""
def forward(self, q, k, v, block_size=1024):
# 分块处理
seq_len = q.shape[1]
num_blocks = (seq_len + block_size - 1) // block_size
outputs = []
for i in range(num_blocks):
block_q = q[:, i*block_size:(i+1)*block_size]
# 环形访问所有块
block_outputs = []
for j in range(num_blocks):
block_k = k[:, j*block_size:(j+1)*block_size]
block_v = v[:, j*block_size:(j+1)*block_size]
attn = block_q @ block_k.transpose(-2, -1)
attn = torch.softmax(attn, dim=-1)
block_outputs.append(attn @ block_v)
outputs.append(sum(block_outputs))
return torch.cat(outputs, dim=1)应用场景
企业应用
企业级应用场景
├── 智能客服
│ ├── 7x24 小时自动回复
│ ├── 多轮对话理解
│ └── 情感分析和安抚
│
├── 内容创作
│ ├── 营销文案生成
│ ├── 产品描述撰写
│ └── 社交媒体内容
│
├── 代码开发
│ ├── 代码自动生成
│ ├── 代码审查和优化
│ └── 技术文档编写
│
├── 数据分析
│ ├── 自然语言查询
│ ├── 报告自动生成
│ └── 数据可视化建议
│
├── 知识管理
│ ├── 文档智能检索
│ ├── 知识库问答
│ └── 会议纪要生成
│
└── 教育培训
├── 个性化辅导
├── 作业批改
└── 课程设计行业解决方案
| 行业 | 应用场景 | 典型用例 |
|---|---|---|
| 金融 | 智能投顾、风险评估、合规审查 | 财报分析、合同审查 |
| 医疗 | 辅助诊断、病历分析、药物研发 | 医学文献检索、影像报告 |
| 法律 | 合同审查、案例检索、文书生成 | 法律问答、合同比对 |
| 教育 | 个性化学习、自动批改、答疑 | 作业辅导、课程设计 |
| 媒体 | 内容生成、智能编辑、翻译 | 新闻写作、视频脚本 |
| 电商 | 智能推荐、客服、商品描述 | 商品文案、用户咨询 |
发展趋势
技术趋势
2024-2025 技术趋势
├── 多模态融合
│ ├── 文本 + 图像 + 音频 + 视频
│ ├── 统一架构处理多种模态
│ └── 端到端多模态训练
│
├── 推理能力增强
│ ├── 思维链 (Chain of Thought)
│ ├── 自我反思和修正
│ └── 数学和科学推理
│
├── 效率优化
│ ├── 模型压缩和量化
│ ├── 边缘设备部署
│ └── 推理速度提升
│
├── 长上下文
│ ├── 百万级 token 上下文
│ ├── 整本书、整代码库处理
│ └── 视频长序列理解
│
├── Agent 智能体
│ ├── 工具使用能力
│ ├── 自主任务执行
│ └── 多 Agent 协作
│
└── 安全对齐
├── 价值观对齐
├── 有害内容防护
└── 可解释性提升市场趋势
-
开源 vs 闭源
- 开源模型性能快速提升
- Llama、Qwen 等开源模型缩小与闭源差距
- 企业更倾向于使用开源模型进行定制
-
垂直领域模型
- 通用模型 + 领域微调
- 医疗、法律、金融等专业模型涌现
- 小模型在特定任务上超越大模型
-
端侧部署
- 手机、PC 本地运行大模型
- 隐私保护和低延迟需求
- 模型压缩技术快速发展
-
成本下降
- 训练和推理成本持续降低
- 模型效率不断提升
- API 价格竞争激烈
选型建议
按场景选择
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 通用对话 | GPT-4, Claude 3.5 | 综合能力最强 |
| 长文档处理 | Claude 3, Gemini 1.5 | 超长上下文支持 |
| 代码生成 | Claude 3.5, GPT-4 | 编程能力突出 |
| 中文应用 | 通义千问, 文心一言 | 中文优化好 |
| 开源定制 | Llama 3, Qwen2 | 开源可定制 |
| 边缘部署 | Phi-3, Llama-3-8B | 小模型高性能 |
| 成本敏感 | GPT-3.5, Claude Haiku | 性价比高 |
决策流程
模型选型决策树
开始
│
├── 是否需要中文优化?
│ ├── 是 → 考虑国内模型(通义千问、文心一言)
│ └── 否 → 继续
│
├── 是否需要超长上下文?
│ ├── 是 → Claude 3, Gemini 1.5, Kimi
│ └── 否 → 继续
│
├── 是否需要代码生成?
│ ├── 是 → Claude 3.5, GPT-4, CodeLlama
│ └── 否 → 继续
│
├── 是否需要开源/定制?
│ ├── 是 → Llama 3, Qwen2, ChatGLM
│ └── 否 → 继续
│
├── 预算限制?
│ ├── 高 → GPT-4, Claude 3 Opus
│ └── 低 → GPT-3.5, Claude Haiku, 开源模型
│
└── 默认推荐:Claude 3.5 Sonnet(性价比最优)总结
大语言模型正在快速发展,主要特点包括:
2026年最新格局
- 国际领先:OpenAI GPT-5、Anthropic Claude 4、Google Gemini 2
- 国内崛起:通义千问 Qwen3.5(全球第一开源大模型体系)、智谱 GLM-5(开源 SOTA)、DeepSeek-R1(高性价比推理模型)
- 开源爆发:Qwen 衍生模型突破10万,GLM-5 开源登顶,DeepSeek 推动技术普惠化
- Agent 元年:OpenClaw 等框架推动智能体应用爆发,MCP 成为行业标准
- 视频生成:国产模型(Vidu、可灵、Seedance)与 Sora 正面竞争,部分维度实现反超
技术方向
- 多模态:文本、图像、音频、视频统一处理,原生多模态成为标配
- 推理增强:o1/o3、DeepSeek-R1 等推理模型推动深度逻辑推理能力
- 效率优化:稀疏 MoE 架构、模型压缩、量化、端侧部署普及
- Agent 化:从"对话"到"执行",智能体能直接操作电脑、调用工具、拆解任务
- 长上下文:百万级 token 成为常态,整本书、整代码库处理成为可能
- 视频生成:声画同出、导演级指令、1080P 画质成为新标准
应用前景
- 企业级应用:客服、内容创作、代码开发、数据分析全面智能化
- Agent 工作流:自动化办公、编程助手、客户服务、内容创作
- 行业深化:医疗、法律、金融等垂直领域专业模型涌现
- 端侧普及:手机、PC 本地运行大模型,隐私保护和低延迟需求驱动
- 视频创作:AI 视频生成改变影视制作、广告创作、短视频生产
2026年选型建议更新
| 场景 | 2026年推荐模型 | 理由 |
|---|---|---|
| 通用对话 | GPT-5, Claude 4 | 最新一代,综合能力最强 |
| 编程/Agent | GLM-5, Claude 4, Qwen3-Coder-Next | 编程能力 SOTA,Agent 场景优化 |
| 高性价比 | DeepSeek-R1, MiniMax M2.5 | 开源低成本,性能接近 GPT-4 |
| 中文应用 | 通义千问 Qwen3.5, 豆包 2.0 Pro | 中文优化最好,生态完善 |
| 视频生成 | Vidu Q3, 可灵, Seedance | 国产领先,部分维度超越 Sora |
| 端侧部署 | 豆包 2.0 Pro, Phi-3 | 手机端实时推理,延迟低于300ms |
| 开源定制 | Qwen3.5-397B, GLM-5, Llama 3 | 开源可定制,社区生态丰富 |
| 超长上下文 | Claude 4, Gemini 2, Kimi K2.5 | 百万级 token 上下文支持 |
学习建议
- 实践为主:多使用不同模型,了解各自特点,关注 2026 年最新模型
- 关注开源:学习 Qwen3.5、GLM-5、DeepSeek-R1 等开源模型
- 掌握 Agent:学习 OpenClaw、MCP 等智能体框架和协议
- 了解视频生成:关注 Vidu、可灵等视频生成模型的发展
- 掌握微调:学习 LoRA、QLoRA 等微调技术,适配垂直场景
- 了解部署:学习模型优化和端侧部署技术
未来展望
- 技术趋势:稀疏架构、端侧轻量化、多模态融合、Agent 自主化
- 市场趋势:开源与闭源并行,垂直场景深度适配,成本持续下降
- 应用趋势:从"工具"到"同事",AI 智能体成为工作流标配
- 生态趋势:MCP 等标准化协议推动工具互联互通
大模型时代已经到来,2026年是 Agent 智能体爆发年,掌握大模型和智能体技术将成为未来竞争力的核心组成部分。
参考资源:
- OpenAI API 文档
- Anthropic Claude 文档
- Hugging Face Transformers
- Papers With Code - LLM 排行榜
- 各厂商官方技术博客