大语言模型(Large Language Model, LLM)是近年来人工智能领域最重大的突破之一。从 GPT 到 Claude,从通义千问到文心一言,大模型正在深刻改变我们的生活和工作方式。本文将全面解析大模型生态,包括主要厂商、模型分类、核心技术和发展趋势。

大模型发展时间线

大模型发展里程碑

2017  Transformer 架构发布 (Attention Is All You Need)

2018  GPT-1 (1.17亿参数) | BERT (3.4亿参数)

2019  GPT-2 (15亿参数)

2020  GPT-3 (1750亿参数) - 大模型元年

2021  CLIP | DALL-E | Codex

2022  ChatGPT 发布 - AI 应用爆发年

2023  GPT-4 | Claude | Bard | 文心一言 | 通义千问

2024  GPT-4o | Claude 3.5 | Gemini 1.5 | Llama 3

2025  o1/o3 推理模型 | 多模态大模型普及

2026  GPT-5 | Claude 4 | Gemini 2 | Qwen3.5 | GLM-5 | DeepSeek-R1
      Agent 智能体爆发 | 视频生成模型竞争 | 端侧大模型普及

2026年最新动态

  • OpenAI 发布 GPT-5,推理能力大幅提升
  • Anthropic 推出 Claude 4 系列,编程能力对标 GPT-5
  • Google 发布 Gemini 2,多模态能力全面增强
  • 阿里 开源 Qwen3.5 系列,衍生模型突破10万,超越 Llama 成为全球第一开源大模型体系
  • 智谱 发布 GLM-5(7440亿参数),开源 SOTA,编程能力逼近 Claude Opus 4.5
  • DeepSeek 开源 R1 模型,以600万美元训练成本实现接近 GPT-4 性能,推动大模型普惠化
  • MiniMax 发布 M2.5 模型,登顶 OpenRouter 调用量榜首
  • 字节 发布豆包 2.0 Pro 和 Seed 2.0 系列,端侧部署能力突出
  • 视频生成:可灵、Vidu、Seedance 与 Sora 正面竞争,部分维度实现反超

国际主要厂商及模型

OpenAI

OpenAI 是大语言模型领域的先驱和领导者。

主要模型

模型参数规模特点擅长领域
GPT-4未公开多模态、强推理通用对话、代码生成、创意写作
GPT-4o未公开原生多模态、实时交互语音对话、图像理解、实时翻译
o1/o3未公开推理优化、思维链数学推理、科学计算、复杂问题求解
GPT-4 Turbo未公开长上下文、知识更新长文档处理、知识问答
DALL-E 3未公开图像生成艺术创作、设计原型

技术特点

  • 基于 Transformer 的 Decoder-only 架构
  • RLHF(人类反馈强化学习)训练
  • 多模态融合能力
  • 工具使用(Function Calling)
# OpenAI API 使用示例
from openai import OpenAI

client = OpenAI(api_key="your-api-key")

# 文本对话
response = client.chat.completions.create(
    model="gpt-4",
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手。"},
        {"role": "user", "content": "解释什么是大语言模型"}
    ],
    temperature=0.7,
    max_tokens=1000
)

print(response.choices[0].message.content)

# 多模态(图像理解)
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "描述这张图片"},
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/image.jpg"}
                }
            ]
        }
    ]
)

# 函数调用(工具使用)
functions = [
    {
        "name": "get_weather",
        "description": "获取指定城市的天气",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "城市名称"},
                "date": {"type": "string", "description": "日期"}
            },
            "required": ["city"]
        }
    }
]

response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "北京明天天气怎么样?"}],
    functions=functions,
    function_call="auto"
)

Anthropic

Anthropic 专注于 AI 安全,其 Claude 系列模型以长上下文和安全性著称。

主要模型

模型上下文长度特点擅长领域
Claude 3 Opus200K最强性能复杂推理、代码生成、学术研究
Claude 3.5 Sonnet200K性价比最优日常对话、内容创作、数据分析
Claude 3 Haiku200K快速响应实时应用、简单问答
Claude 3.5 Sonnet (New)200K增强版编程、视觉理解、工具使用

技术特点

  • Constitutional AI(宪法 AI)训练方法
  • 超长上下文窗口(200K tokens)
  • 出色的代码理解和生成能力
  • 强大的文档分析能力
# Anthropic API 使用示例
from anthropic import Anthropic

client = Anthropic(api_key="your-api-key")

# 长文档处理示例
long_document = """[这里可以放入整本书或长文档的内容...]"""

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=4000,
    messages=[
        {
            "role": "user",
            "content": f"请总结以下文档的主要观点,并提取关键信息:\n\n{long_document}"
        }
    ]
)

print(response.content[0].text)

# 代码生成示例
response = client.messages.create(
    model="claude-3-opus-20240229",
    max_tokens=2000,
    system="你是一个专业的 Python 开发者,擅长编写清晰、高效的代码。",
    messages=[
        {
            "role": "user",
            "content": "请实现一个 LRU 缓存,要求线程安全,并包含单元测试。"
        }
    ]
)

Google (DeepMind)

Google 通过 DeepMind 和 Google Brain 合并后的团队开发 Gemini 系列模型。

主要模型

模型参数规模特点擅长领域
Gemini Ultra未公开最强版本复杂推理、多模态任务
Gemini Pro未公开平衡性能通用对话、内容生成
Gemini Flash未公开轻量快速边缘设备、实时应用
Gemini 1.5 Pro未公开超长上下文(100万 tokens)视频分析、长文档处理

技术特点

  • 原生多模态架构(从训练开始就是多模态)
  • 超长上下文窗口(最高 1000 万 tokens)
  • 与 Google 生态系统深度集成
  • 强大的数学和科学推理能力
# Google Gemini API 使用示例
import google.generativeai as genai

genai.configure(api_key="your-api-key")

# 文本模型
model = genai.GenerativeModel('gemini-pro')

response = model.generate_content("解释量子计算的基本原理")
print(response.text)

# 多模态模型
model = genai.GenerativeModel('gemini-pro-vision')

import PIL.Image
img = PIL.Image.open('image.jpg')

response = model.generate_content(
    ["描述这张图片的内容", img]
)

# 流式输出
response = model.generate_content(
    "写一个关于人工智能的短篇故事",
    stream=True
)
for chunk in response:
    print(chunk.text, end='')

# 聊天会话
chat = model.start_chat(history=[])
response = chat.send_message("你好!")
response = chat.send_message("你能做什么?")

Meta (Facebook)

Meta 以开源策略著称,Llama 系列模型推动了开源大模型的发展。

主要模型

模型参数规模特点擅长领域
Llama 3 405B4050亿开源最强通用任务、研究应用
Llama 3 70B700亿高性能生产环境、复杂任务
Llama 3 8B80亿轻量级边缘设备、快速推理
Code Llama7B-70B代码专用代码生成、代码补全

技术特点

  • 完全开源(权重和架构)
  • 高效的训练方法
  • 优秀的代码生成能力(Code Llama)
  • 社区生态丰富
# 使用 Hugging Face Transformers 加载 Llama
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

messages = [
    {"role": "system", "content": "你是一个有帮助的助手。"},
    {"role": "user", "content": "解释什么是机器学习"}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.7,
    top_p=0.9
)

response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

Microsoft

Microsoft 与 OpenAI 深度合作,同时开发自己的模型。

主要模型

模型/产品基础模型特点擅长领域
CopilotGPT-4办公集成文档处理、代码编写、会议总结
Phi-3自研小模型高性能边缘设备、移动应用
Azure OpenAIGPT-4/3.5企业级服务企业应用、合规场景

技术特点

  • 与 Microsoft 365 深度集成
  • 企业级安全和合规
  • 小模型优化(Phi 系列)

xAI

Elon Musk 创立的 xAI 开发了 Grok 系列模型。

主要模型

模型特点擅长领域
Grok-1开源、实时信息实时问答、新闻分析
Grok-1.5增强推理数学、编程
Grok-2最新版本通用对话、图像生成

技术特点

  • 实时访问 X(Twitter)数据
  • 幽默、叛逆的对话风格
  • 开源策略

国内主要厂商及模型

阿里巴巴

通义千问(Qwen) 系列是阿里巴巴的大模型产品。

模型参数规模特点擅长领域
Qwen3.5-Plus未公开2026年最新版本复杂任务、企业应用
Qwen3.5-397B-A17B3970亿开源旗舰版研究、高性能应用
Qwen3-Coder-Next80B (激活3B)编程智能体专用代码生成、Agent 开发
Qwen-Max未公开最强版本复杂任务、企业应用
Qwen-Plus未公开平衡性能通用对话、内容创作
Qwen2-72B720亿开源经典研究、自定义应用
Qwen2-VL多模态视觉理解图像分析、文档理解
CodeQwen代码专用编程助手代码生成、代码审查

2026年最新动态

  • Qwen3.5 系列 发布,包含 Plus 和 397B-A17B 两个版本,均支持文本和多模态任务
  • Qwen3-Coder-Next 专为编程智能体设计,80B总参数仅激活3B,在 SWE-Bench Verified 上实现超70%问题解决率,媲美激活参数规模大10-20倍的稠密模型
  • 通义千问衍生模型突破 10万,超越 Llama 成为全球第一开源大模型体系
  • 阿里云百炼推出 CodingPlan,支持 Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5 四大开源模型自由切换
  • 2025年下半年,通义千问在中国企业级大模型日均调用量占比跃升至 32.1%,领先优势扩大

技术特点

  • 中英双语优化,中文古籍理解准确率达92.3%
  • 开源模型性能领先,支持混合精度训练,显存占用降低40%
  • 多模态能力强,支持3D模型生成(精度达0.1mm)、长视频摘要
  • 代码生成专业,电商商品描述生成准确率达98%
# 通义千问 API 使用示例
import dashscope
from dashscope import Generation

dashscope.api_key = "your-api-key"

response = Generation.call(
    model="qwen-max",
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手。"},
        {"role": "user", "content": "解释什么是大语言模型"}
    ]
)

print(response.output.text)

# 多模态示例
from dashscope import MultiModalConversation

messages = [
    {
        "role": "user",
        "content": [
            {"image": "https://example.com/image.jpg"},
            {"text": "描述这张图片"}
        ]
    }
]

response = MultiModalConversation.call(
    model="qwen-vl-max",
    messages=messages
)

百度

文心一言(ERNIE Bot) 是百度的大模型产品。

模型特点擅长领域
ERNIE 4.0最强版本复杂推理、创作
ERNIE 3.5平衡版本通用对话、知识问答
ERNIE Speed轻量快速实时应用
ERNIE Lite端侧模型移动设备

技术特点

  • 知识增强架构
  • 中文理解能力强
  • 与百度搜索生态结合
  • 多模态能力

字节跳动

豆包(Doubao) 是字节跳动的大模型产品。

模型特点擅长领域
豆包 2.0 Pro2026年最新版本复杂任务、企业应用
Seed 2.0 系列视觉与多模态优化图像理解、视频分析
Doubao-pro专业版复杂任务、企业应用
Doubao-lite轻量版快速响应、移动应用
Doubao-vision多模态图像理解、视频分析

2026年最新动态

  • 豆包 2.0 Pro 正式上线,在豆包 App、PC 端及网页版全面开放
  • Seed 2.0 系列 重点优化视觉与多模态理解、复杂指令执行能力,多款模型在行业基准测试中达到 SOTA 水平
  • Stable-DiffCoder:华中科技大学和字节跳动联合推出的扩散代码模型,在 MBPP、BigCodeBench 等榜单上超越 Qwen2.5-Coder、Qwen3、DeepSeek-Coder 等开源模型
  • 豆包在 OpenClaw 调用榜上登顶,证明其在 Agent 场景的强大能力
  • 火山引擎同步开放全系列 API 服务,助力企业与开发者快速接入

技术特点

  • 与字节产品生态(抖音、今日头条等)深度集成
  • 语音交互优化,情感交互准确率达85%,支持方言识别(粤语、川渝方言等)
  • 多模态能力强,支持短视频脚本生成→特效建议→自动剪辑全流程
  • 轻量化部署,iPhone 15 Pro Max 推理延迟低于300ms,成本仅为云端方案的1/10

智谱 AI

智谱 AI 的 ChatGLM 系列是开源社区的重要贡献。

模型参数规模特点擅长领域
GLM-57440亿2026年开源 SOTA编程、Agent、复杂推理
GLM-4未公开最强版本通用对话、复杂推理
GLM-4-9B90亿开源版本研究、轻量应用
ChatGLM3-6B60亿经典开源学习、研究
CodeGeeX代码专用编程助手代码生成、补全

2026年最新动态

  • GLM-5 正式发布,参数规模达7440亿,在 Artificial Analysis 榜单中位居全球第四、开源第一
  • 编程能力实现对 Claude Opus 4.5 的对齐,在真实编程场景的使用体感逼近 Claude Opus 4.5
  • 首次集成 DeepSeek Sparse Attention 稀疏注意力机制,在维持长文本理解无损的前提下显著提升 Token 效率
  • 智谱成为国内首家对大模型商业化服务提价的 AI 原生企业,GLM Coding Plan 中国区涨价30%,海外版涨价超100%
  • 发布《GLM Coding Plan 致歉信》,承认运营中规则透明度不足、灰度节奏过慢等问题,对受影响用户支持自主申请退款

技术特点

  • GLM(General Language Model)架构,兼顾理解和生成
  • 开源友好,技术报告全面公开
  • 中文优化,擅长复杂系统工程与长程 Agent 任务
  • 代码生成专业,Coding 能力行业领先
# ChatGLM 使用示例
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained(
    "THUDM/chatglm3-6b",
    trust_remote_code=True
)
model = AutoModel.from_pretrained(
    "THUDM/chatglm3-6b",
    trust_remote_code=True,
    device='cuda'
)

response, history = model.chat(
    tokenizer,
    "你好",
    history=[]
)
print(response)

response, history = model.chat(
    tokenizer,
    "解释什么是机器学习",
    history=history
)
print(response)

月之暗面 (Moonshot AI)

Kimi 以超长上下文著称。

模型上下文长度特点擅长领域
Kimi K1.5200万字符超长上下文长文档分析、论文阅读
Kimi Chat20万字符通用版本日常对话、内容创作

技术特点

  • 超长上下文处理能力
  • 中文文档理解
  • 支持多种文件格式

DeepSeek(深度求索)

DeepSeek 是 2025-2026 年开源大模型领域的黑马,以高性价比和强推理能力著称。

模型参数规模特点擅长领域
DeepSeek-R1未公开开源推理模型数学推理、代码生成
DeepSeek-V3.2未公开通用版本通用对话、内容创作
DeepSeek-Coder代码专用编程助手代码生成、代码补全

2026年最新动态

  • DeepSeek-R1 开源发布,训练费用低于 600万美元,实现接近 GPT-4 的性能
  • 采用 稀疏 MoE 架构,通过条件计算降低计算成本,推理成本仅为 GPT-4o 的 3%
  • 支持 无 GPU 本地部署,中小企业与开发者可低成本使用
  • GitHub 星标数超 10万,开源生态完善
  • GSM8K 数学推理准确率达 98.7%,代码生成通过率 92%(Humaneval)

技术特点

  • 稀疏 MoE(混合专家)架构,动态激活专家层
  • 推理能力接近人类系统2思维(深度逻辑推理)
  • 高性价比,推动大模型技术普惠化
  • 支持开发者二次微调,适配各类垂直场景

MiniMax

MiniMax 是 2026 年快速崛起的大模型厂商,M2.5 模型在 Agent 场景表现突出。

模型参数规模特点擅长领域
MiniMax M2.510B 激活参数Agent 原生设计编程、工具调用、长文本
MiniMax 文本模型未公开通用版本通用对话、内容创作
MiniMax 语音模型未公开语音合成语音交互、音频生成

2026年最新动态

  • MiniMax M2.5 发布,定位为"全球首个为 Agent 场景原生设计的生产级模型"
  • 发布一周内登顶 OpenRouter 调用量榜首,周调用量暴涨至 3.07T tokens
  • 超过 Kimi K2.5、GLM-5 与 DeepSeek V3.2 三家总和
  • 带动 100K 至 1M 长文本区间的增量调用需求,该区间为 Agent 工作流的典型消耗场景
  • 激活参数量仅 10B,主打编程与智能体工作流能力,对标 Claude Opus 4.6

技术特点

  • 专为 Agent 场景原生设计
  • 编程、工具调用及长文本处理能力突出
  • 轻量化部署,10B 激活参数实现高性能
  • 支持复杂智能体工作流

视频生成模型

2026年视频生成模型竞争激烈,国产模型实现重大突破。

模型厂商特点性能
Vidu Q3生数科技声画同出、1080P、导演级指令中国第一、全球第二
可灵快手视频生成质量高与 Sora 正面竞争
Seedance字节跳动原生多模态部分维度超越 Sora
SkyReels V4Skywork AI多模态输入、联合音视频生成全球第二
Sora 2OpenAI原生多模态行业标杆
Grok 视频xAI实时信息结合新闻视频生成

2026年最新动态

  • Vidu Q3 在 Artificial Analysis 榜单排名中国第一、全球第二,仅次于 xAI 的 Grok 视频生成模型
  • Vidu Q3 支持 16s 声画同出1080P 画质、丰富的镜头语言、精准切镜、多国文字渲染
  • SkyReels V4 成为全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型
  • 国产视频生成模型用密集的技术迭代,把"领跑"从口号变成了结果
  • 可灵、Vidu、Seedance 已经能与 Sora 正面竞争,甚至在部分维度实现反超

其他国内厂商

厂商模型特点
腾讯混元大模型与微信、QQ 生态集成
华为盘古大模型行业应用、B端市场
商汤日日新 SenseNova计算机视觉优势
科大讯飞星火大模型语音技术领先
零一万物Yi 系列李开复创立,开源友好
蚂蚁集团百灵大模型万亿参数、混合线性注意力

Agent 智能体生态

2026年是 Agent 智能体爆发年,OpenClaw 等框架推动智能体应用普及。

OpenClaw 智能体框架

  • 20天内完成超过 10次更新
  • Token 使用量一度飙升至 OpenRouter 平台总量的约 13%
  • 重新定义人机交互方式,从"对话"到"执行"
  • 让大模型能直接操作电脑桌面、调用各类工具,甚至拆解复杂任务
  • Kimi K2.5 在 OpenClaw 调用榜上登顶

MCP(Model Context Protocol)

  • Google、OpenAI、Microsoft 联合推动的 AI 工具交互通用接口
  • 已被捐赠至开源社区,成为行业标准
  • 实现 AI 与外部工具、数据源的标准化连接

智能体应用场景

  • 自动化办公:文档处理、数据分析、邮件回复
  • 编程助手:代码生成、调试、测试
  • 客户服务:多轮对话、问题解决、工单处理
  • 内容创作:文案生成、视频脚本、多模态创作

大模型分类

按架构分类

大模型架构分类

├── 自回归模型 (Autoregressive)
│   ├── GPT 系列 (Decoder-only)
│   ├── Llama 系列
│   ├── Claude 系列
│   └── 特点:生成能力强,适合文本生成

├── 自编码模型 (Autoencoding)
│   ├── BERT 系列 (Encoder-only)
│   ├── RoBERTa
│   └── 特点:理解能力强,适合分类、抽取

├── 编码器-解码器 (Encoder-Decoder)
│   ├── T5
│   ├── BART
│   ├── GLM (ChatGLM)
│   └── 特点:兼顾理解和生成,适合翻译、摘要

└── 混合架构
    ├── Mamba (状态空间模型)
    ├── RetNet
    └── 特点:线性复杂度,长序列优化

按模态分类

类型代表模型能力应用场景
文本模型GPT-4, Claude, Llama文本理解生成对话、写作、编程
多模态模型GPT-4o, Gemini, Qwen-VL文本+图像+音频图像理解、视频分析
代码模型Codex, CodeLlama, CodeQwen代码生成编程助手、代码审查
语音模型Whisper, Qwen-Audio语音识别合成语音交互、字幕生成
视频模型Sora, VideoPoet视频生成理解视频创作、分析

按规模分类

规模参数量代表模型应用场景
小型< 10BPhi-3, Llama-3-8B边缘设备、移动端
中型10B - 70BLlama-2-70B, Qwen-72B生产环境、企业应用
大型70B - 400BGPT-3.5, Llama-3-405B复杂任务、研究
超大型> 400BGPT-4, Gemini Ultra通用人工智能

按功能分类

功能分类

├── 基础模型 (Base Model)
│   └── 预训练后的通用模型

├── 对话模型 (Chat Model)
│   └── 经过指令微调和 RLHF 的模型
│       ├── ChatGPT
│       ├── Claude
│       └── 文心一言

├── 推理模型 (Reasoning Model)
│   └── 专门优化推理能力的模型
│       ├── OpenAI o1/o3
│       ├── Claude 3.5 (推理模式)
│       └── DeepSeek-R1

├── 代码模型 (Code Model)
│   └── 专门训练代码数据的模型
│       ├── Codex
│       ├── CodeLlama
│       └── CodeQwen

└── 多模态模型 (Multimodal Model)
    └── 处理多种模态的模型
        ├── GPT-4o
        ├── Gemini
        └── Qwen-VL

核心技术解析

Transformer 架构

Transformer 是大模型的基础架构。

Transformer 架构

输入


┌─────────────────┐
│  Embedding 层   │  词嵌入 + 位置编码
└────────┬────────┘

    ┌────┴────┐
    │         │
    ▼         ▼
┌───────┐ ┌───────┐
│Encoder│ │Decoder│
│(编码器)│ │(解码器)│
└───┬───┘ └───┬───┘
    │         │
    │    ┌────┴────┐
    │    │ Masked  │
    │    │Multi-Head│
    │    │Attention │
    │    └────┬────┘
    │         │
    │    ┌────┴────┐
    │    │ Multi-Head │
    │    │ Attention  │  交叉注意力
    │    └────┬────┘
    │         │
    │    ┌────┴────┐
    │    │ Feed    │
    │    │ Forward │
    │    └────┬────┘
    │         │
    │    [重复 N 层]
    │         │
    └────►┌───┴───┐
          │ Linear│
          │ Softmax│
          └───┬───┘


            输出

核心组件

  1. 自注意力机制(Self-Attention)
import torch
import torch.nn as nn
import math

class SelfAttention(nn.Module):
    def __init__(self, embed_size, heads):
        super(SelfAttention, self).__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads
        
        assert (self.head_dim * heads == embed_size), "Embedding size must be divisible by heads"
        
        self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)
        self.fc_out = nn.Linear(heads * self.head_dim, embed_size)
    
    def forward(self, values, keys, query, mask=None):
        N = query.shape[0]
        value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]
        
        # 分割成多个头
        values = values.reshape(N, value_len, self.heads, self.head_dim)
        keys = keys.reshape(N, key_len, self.heads, self.head_dim)
        queries = query.reshape(N, query_len, self.heads, self.head_dim)
        
        values = self.values(values)
        keys = self.keys(keys)
        queries = self.queries(queries)
        
        # 注意力计算: Q @ K^T
        energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])
        
        if mask is not None:
            energy = energy.masked_fill(mask == 0, float("-1e20"))
        
        attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=3)
        
        # 加权求和: attention @ V
        out = torch.einsum("nhql,nlhd->nqhd", [attention, values])
        out = out.reshape(N, query_len, self.heads * self.head_dim)
        
        out = self.fc_out(out)
        return out
  1. 位置编码(Positional Encoding)
class PositionalEncoding(nn.Module):
    def __init__(self, embed_size, max_len=5000):
        super(PositionalEncoding, self).__init__()
        
        pe = torch.zeros(max_len, embed_size)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        
        div_term = torch.exp(
            torch.arange(0, embed_size, 2).float() * 
            (-math.log(10000.0) / embed_size)
        )
        
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)
    
    def forward(self, x):
        return x + self.pe[:x.size(0), :]

训练技术

1. 预训练(Pre-training)

预训练方法

├── 语言建模 (Language Modeling)
│   ├── 自回归语言建模 (GPT)
│   │   └── 预测下一个词
│   └── 掩码语言建模 (BERT)
│       └── 预测被掩码的词

├── 去噪自编码 (Denoising Autoencoding)
│   └── T5: 重构被扰动的输入

└── 混合方法
    └── GLM: 结合自回归和自编码

2. 指令微调(Instruction Tuning)

# 指令微调数据格式示例
training_data = [
    {
        "instruction": "将以下英文翻译成中文",
        "input": "Hello, how are you?",
        "output": "你好,你好吗?"
    },
    {
        "instruction": "解释以下概念",
        "input": "机器学习",
        "output": "机器学习是人工智能的一个分支..."
    },
    {
        "instruction": "写一首关于春天的诗",
        "input": "",
        "output": "春风拂面柳丝长,..."
    }
]

# 使用 Hugging Face TRL 进行指令微调
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer
from peft import LoraConfig

model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b")

peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,
    max_seq_length=512,
    tokenizer=tokenizer,
    packing=True,
    args=TrainingArguments(
        per_device_train_batch_size=4,
        gradient_accumulation_steps=4,
        num_train_epochs=3,
        learning_rate=2e-4,
        fp16=True,
        logging_steps=10,
    ),
)

trainer.train()

3. RLHF(人类反馈强化学习)

RLHF 流程

步骤 1: 训练奖励模型 (Reward Model)
├── 收集人类偏好数据
│   └── 对同一提示的多个回答进行排序
├── 训练奖励模型预测人类偏好
└── 输出: 奖励模型 RM

步骤 2: 使用 PPO 优化策略
├── 初始化: SFT 模型
├── 循环:
│   ├── 生成回答
│   ├── 奖励模型打分
│   ├── PPO 算法更新策略
│   └── KL 散度约束(防止模型偏离太远)
└── 输出: RLHF 优化后的模型
# RLHF 简化示例 (使用 TRL 库)
from trl import PPOTrainer, PPOConfig
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载模型
model = AutoModelForCausalLM.from_pretrained("sft-model")
ref_model = AutoModelForCausalLM.from_pretrained("sft-model")
tokenizer = AutoTokenizer.from_pretrained("sft-model")

# 加载奖励模型
reward_model = AutoModelForSequenceClassification.from_pretrained("reward-model")

# PPO 配置
config = PPOConfig(
    model_name="sft-model",
    learning_rate=1.41e-5,
    batch_size=256,
)

# 初始化 PPO 训练器
ppo_trainer = PPOTrainer(
    config=config,
    model=model,
    ref_model=ref_model,
    tokenizer=tokenizer,
    dataset=dataset,
    data_collator=collator,
)

# 训练循环
for epoch in range(3):
    for batch in ppo_trainer.dataloader:
        # 生成回答
        queries = batch["query"]
        response_tensors = ppo_trainer.generate(queries)
        
        # 解码回答
        responses = tokenizer.batch_decode(response_tensors)
        
        # 计算奖励
        rewards = reward_model(queries, responses)
        
        # PPO 更新
        stats = ppo_trainer.step(queries, response_tensors, rewards)

4. 推理优化技术

# 推理优化技术示例

# 1. KV Cache 优化
class KVCache:
    """键值缓存,避免重复计算"""
    def __init__(self):
        self.key_cache = []
        self.value_cache = []
    
    def update(self, key, value):
        self.key_cache.append(key)
        self.value_cache.append(value)
    
    def get(self):
        if not self.key_cache:
            return None, None
        return (
            torch.cat(self.key_cache, dim=2),
            torch.cat(self.value_cache, dim=2)
        )

# 2. 量化 (Quantization)
from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

model = AutoModelForCausalLM.from_pretrained(
    "model-name",
    quantization_config=quantization_config,
    device_map="auto"
)

# 3. 投机解码 (Speculative Decoding)
def speculative_decoding(model, draft_model, prompt, max_tokens):
    """
    使用小模型生成候选 token,大模型验证
    """
    tokens = tokenize(prompt)
    
    while len(tokens) < max_tokens:
        # 小模型生成多个候选 token
        draft_tokens = draft_model.generate(tokens, num_tokens=5)
        
        # 大模型并行验证
        logits = model.forward(tokens + draft_tokens)
        
        # 接受或拒绝候选
        accepted = verify_tokens(logits, draft_tokens)
        tokens.extend(accepted)
    
    return detokenize(tokens)

# 4. 连续批处理 (Continuous Batching)
class ContinuousBatching:
    """动态批处理,提高 GPU 利用率"""
    def __init__(self, max_batch_size=16):
        self.max_batch_size = max_batch_size
        self.requests = []
    
    def add_request(self, request):
        self.requests.append(request)
    
    def process_batch(self):
        # 动态组合请求
        batch = self._form_batch()
        
        # 并行推理
        outputs = model.generate(batch)
        
        # 分发结果
        for req, output in zip(batch, outputs):
            req.callback(output)

长上下文技术

# 长上下文处理技术

# 1. 位置编码外推
class RotaryPositionEmbedding(nn.Module):
    """RoPE 位置编码,支持外推"""
    def __init__(self, dim, max_seq_len=2048):
        super().__init__()
        inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer('inv_freq', inv_freq)
    
    def forward(self, seq_len):
        t = torch.arange(seq_len, device=self.inv_freq.device)
        freqs = torch.einsum('i,j->ij', t, self.inv_freq)
        emb = torch.cat((freqs, freqs), dim=-1)
        return emb.cos(), emb.sin()

# 2. 滑动窗口注意力
class SlidingWindowAttention(nn.Module):
    """局部注意力,降低长序列复杂度"""
    def __init__(self, window_size=512):
        super().__init__()
        self.window_size = window_size
    
    def forward(self, q, k, v, mask=None):
        batch_size, seq_len, _ = q.shape
        
        # 只关注窗口内的 token
        outputs = []
        for i in range(seq_len):
            start = max(0, i - self.window_size)
            end = min(seq_len, i + self.window_size + 1)
            
            local_q = q[:, i:i+1]
            local_k = k[:, start:end]
            local_v = v[:, start:end]
            
            attn = torch.softmax(local_q @ local_k.transpose(-2, -1), dim=-1)
            output = attn @ local_v
            outputs.append(output)
        
        return torch.cat(outputs, dim=1)

# 3. Ring Attention
class RingAttention(nn.Module):
    """环形注意力,处理超长序列"""
    def forward(self, q, k, v, block_size=1024):
        # 分块处理
        seq_len = q.shape[1]
        num_blocks = (seq_len + block_size - 1) // block_size
        
        outputs = []
        for i in range(num_blocks):
            block_q = q[:, i*block_size:(i+1)*block_size]
            
            # 环形访问所有块
            block_outputs = []
            for j in range(num_blocks):
                block_k = k[:, j*block_size:(j+1)*block_size]
                block_v = v[:, j*block_size:(j+1)*block_size]
                
                attn = block_q @ block_k.transpose(-2, -1)
                attn = torch.softmax(attn, dim=-1)
                block_outputs.append(attn @ block_v)
            
            outputs.append(sum(block_outputs))
        
        return torch.cat(outputs, dim=1)

应用场景

企业应用

企业级应用场景

├── 智能客服
│   ├── 7x24 小时自动回复
│   ├── 多轮对话理解
│   └── 情感分析和安抚

├── 内容创作
│   ├── 营销文案生成
│   ├── 产品描述撰写
│   └── 社交媒体内容

├── 代码开发
│   ├── 代码自动生成
│   ├── 代码审查和优化
│   └── 技术文档编写

├── 数据分析
│   ├── 自然语言查询
│   ├── 报告自动生成
│   └── 数据可视化建议

├── 知识管理
│   ├── 文档智能检索
│   ├── 知识库问答
│   └── 会议纪要生成

└── 教育培训
    ├── 个性化辅导
    ├── 作业批改
    └── 课程设计

行业解决方案

行业应用场景典型用例
金融智能投顾、风险评估、合规审查财报分析、合同审查
医疗辅助诊断、病历分析、药物研发医学文献检索、影像报告
法律合同审查、案例检索、文书生成法律问答、合同比对
教育个性化学习、自动批改、答疑作业辅导、课程设计
媒体内容生成、智能编辑、翻译新闻写作、视频脚本
电商智能推荐、客服、商品描述商品文案、用户咨询

发展趋势

技术趋势

2024-2025 技术趋势

├── 多模态融合
│   ├── 文本 + 图像 + 音频 + 视频
│   ├── 统一架构处理多种模态
│   └── 端到端多模态训练

├── 推理能力增强
│   ├── 思维链 (Chain of Thought)
│   ├── 自我反思和修正
│   └── 数学和科学推理

├── 效率优化
│   ├── 模型压缩和量化
│   ├── 边缘设备部署
│   └── 推理速度提升

├── 长上下文
│   ├── 百万级 token 上下文
│   ├── 整本书、整代码库处理
│   └── 视频长序列理解

├── Agent 智能体
│   ├── 工具使用能力
│   ├── 自主任务执行
│   └── 多 Agent 协作

└── 安全对齐
    ├── 价值观对齐
    ├── 有害内容防护
    └── 可解释性提升

市场趋势

  1. 开源 vs 闭源

    • 开源模型性能快速提升
    • Llama、Qwen 等开源模型缩小与闭源差距
    • 企业更倾向于使用开源模型进行定制
  2. 垂直领域模型

    • 通用模型 + 领域微调
    • 医疗、法律、金融等专业模型涌现
    • 小模型在特定任务上超越大模型
  3. 端侧部署

    • 手机、PC 本地运行大模型
    • 隐私保护和低延迟需求
    • 模型压缩技术快速发展
  4. 成本下降

    • 训练和推理成本持续降低
    • 模型效率不断提升
    • API 价格竞争激烈

选型建议

按场景选择

场景推荐模型理由
通用对话GPT-4, Claude 3.5综合能力最强
长文档处理Claude 3, Gemini 1.5超长上下文支持
代码生成Claude 3.5, GPT-4编程能力突出
中文应用通义千问, 文心一言中文优化好
开源定制Llama 3, Qwen2开源可定制
边缘部署Phi-3, Llama-3-8B小模型高性能
成本敏感GPT-3.5, Claude Haiku性价比高

决策流程

模型选型决策树

开始

  ├── 是否需要中文优化?
  │   ├── 是 → 考虑国内模型(通义千问、文心一言)
  │   └── 否 → 继续

  ├── 是否需要超长上下文?
  │   ├── 是 → Claude 3, Gemini 1.5, Kimi
  │   └── 否 → 继续

  ├── 是否需要代码生成?
  │   ├── 是 → Claude 3.5, GPT-4, CodeLlama
  │   └── 否 → 继续

  ├── 是否需要开源/定制?
  │   ├── 是 → Llama 3, Qwen2, ChatGLM
  │   └── 否 → 继续

  ├── 预算限制?
  │   ├── 高 → GPT-4, Claude 3 Opus
  │   └── 低 → GPT-3.5, Claude Haiku, 开源模型

  └── 默认推荐:Claude 3.5 Sonnet(性价比最优)

总结

大语言模型正在快速发展,主要特点包括:

2026年最新格局

  • 国际领先:OpenAI GPT-5、Anthropic Claude 4、Google Gemini 2
  • 国内崛起:通义千问 Qwen3.5(全球第一开源大模型体系)、智谱 GLM-5(开源 SOTA)、DeepSeek-R1(高性价比推理模型)
  • 开源爆发:Qwen 衍生模型突破10万,GLM-5 开源登顶,DeepSeek 推动技术普惠化
  • Agent 元年:OpenClaw 等框架推动智能体应用爆发,MCP 成为行业标准
  • 视频生成:国产模型(Vidu、可灵、Seedance)与 Sora 正面竞争,部分维度实现反超

技术方向

  • 多模态:文本、图像、音频、视频统一处理,原生多模态成为标配
  • 推理增强:o1/o3、DeepSeek-R1 等推理模型推动深度逻辑推理能力
  • 效率优化:稀疏 MoE 架构、模型压缩、量化、端侧部署普及
  • Agent 化:从"对话"到"执行",智能体能直接操作电脑、调用工具、拆解任务
  • 长上下文:百万级 token 成为常态,整本书、整代码库处理成为可能
  • 视频生成:声画同出、导演级指令、1080P 画质成为新标准

应用前景

  • 企业级应用:客服、内容创作、代码开发、数据分析全面智能化
  • Agent 工作流:自动化办公、编程助手、客户服务、内容创作
  • 行业深化:医疗、法律、金融等垂直领域专业模型涌现
  • 端侧普及:手机、PC 本地运行大模型,隐私保护和低延迟需求驱动
  • 视频创作:AI 视频生成改变影视制作、广告创作、短视频生产

2026年选型建议更新

场景2026年推荐模型理由
通用对话GPT-5, Claude 4最新一代,综合能力最强
编程/AgentGLM-5, Claude 4, Qwen3-Coder-Next编程能力 SOTA,Agent 场景优化
高性价比DeepSeek-R1, MiniMax M2.5开源低成本,性能接近 GPT-4
中文应用通义千问 Qwen3.5, 豆包 2.0 Pro中文优化最好,生态完善
视频生成Vidu Q3, 可灵, Seedance国产领先,部分维度超越 Sora
端侧部署豆包 2.0 Pro, Phi-3手机端实时推理,延迟低于300ms
开源定制Qwen3.5-397B, GLM-5, Llama 3开源可定制,社区生态丰富
超长上下文Claude 4, Gemini 2, Kimi K2.5百万级 token 上下文支持

学习建议

  1. 实践为主:多使用不同模型,了解各自特点,关注 2026 年最新模型
  2. 关注开源:学习 Qwen3.5、GLM-5、DeepSeek-R1 等开源模型
  3. 掌握 Agent:学习 OpenClaw、MCP 等智能体框架和协议
  4. 了解视频生成:关注 Vidu、可灵等视频生成模型的发展
  5. 掌握微调:学习 LoRA、QLoRA 等微调技术,适配垂直场景
  6. 了解部署:学习模型优化和端侧部署技术

未来展望

  • 技术趋势:稀疏架构、端侧轻量化、多模态融合、Agent 自主化
  • 市场趋势:开源与闭源并行,垂直场景深度适配,成本持续下降
  • 应用趋势:从"工具"到"同事",AI 智能体成为工作流标配
  • 生态趋势:MCP 等标准化协议推动工具互联互通

大模型时代已经到来,2026年是 Agent 智能体爆发年,掌握大模型和智能体技术将成为未来竞争力的核心组成部分。


参考资源

  • OpenAI API 文档
  • Anthropic Claude 文档
  • Hugging Face Transformers
  • Papers With Code - LLM 排行榜
  • 各厂商官方技术博客