2026年大模型API价格横评：我把$100扔进去，看谁先烧完

2026年3月26日 · AI开发

前言

我做了一个实验：给8家AI厂商各充$100，用相同的4个开发场景跑测试，看谁先烧完钱、谁撑得最久。

结果让我吃了一惊——同样是处理100万token的输入，最贵的Claude Opus 4.6花了$5，最便宜的DeepSeek V3.2开了缓存只花了$0.028。同一个任务，差了178倍。

这不是小数点后几毛钱的差距，是月费$50和月费$5000的区别。如果你在做AI应用开发、跑Agent、或者批量处理数据，选错模型等于把钱扔进火里。

这篇文章把2026年3月8家厂商20+款模型的API定价全部摊开，附上我实测的省钱方案。

先看结论：4个场景该选谁

开发场景	首选模型	备选方案	每百万token成本	理由
日常对话/客服机器人	Gemini 2.5 Flash	DeepSeek V3.2	$0.30入/$2.50出	速度快、1M窗口、价格低
长文档分析/RAG	Claude Sonnet 4.6	Gemini 2.5 Pro	$3.00入/$15.00出	1M上下文最可靠，幻觉控制最好
代码生成/Agent	Claude Sonnet 4.6	DeepSeek V3.2	$3.00入/$15.00出	SWE-bench 72.7%，Agent能力最强
高并发批量处理	Gemini 2.5 Flash-Lite	DeepSeek V3.2（缓存）	$0.10入/$0.40出	极致便宜，适合不需要强推理的流水线
中文内容创作	Kimi K2.5	通义千问3.5-Plus	~$0.60入/$1.30出	中文理解质量最好，速度103-116 tok/s
复杂数学推理	o3（按需）	DeepSeek R1	$10.00入/$40.00出	推理天花板，但很贵，只在必要时用

这不是"各有优劣看你需求"——我给了明确的首选。下面展开说为什么。

全部模型价格一览（2026年3月）

以下是各家主流模型的官方API定价，数据来源为各厂商官方文档，截至2026年3月26日。

OpenAI

模型	输入（$/MTok）	输出（$/MTok）	上下文窗口	定位
GPT-4.1	$2.00	$8.00	1M	新主力，代码+长上下文
GPT-4.1 mini	$0.40	$1.60	1M	轻量版，日常够用
GPT-4o	$2.50	$10.00	128k	老旗舰，多模态强
o3	$10.00	$40.00	200k	推理天花板，按思考token计费
o4-mini	$1.10	$4.40	200k	轻量推理，比o3便宜80%

Anthropic（Claude）

模型	输入（$/MTok）	输出（$/MTok）	上下文窗口	定位
Claude Opus 4.6	$5.00	$25.00	1M	旗舰，Agent编程最强
Claude Sonnet 4.6	$3.00	$15.00	1M	性价比旗舰，推荐主力
Claude Haiku 4.5	$1.00	$5.00	200k	轻量高速，适合简单任务

Google（Gemini）

模型	输入（$/MTok）	输出（$/MTok）	上下文窗口	定位
Gemini 2.5 Pro	$1.25	$10.00	1M	多模态+工具调用强
Gemini 2.5 Flash	$0.30	$2.50	1M	速度快、便宜、够用
Gemini 2.5 Flash-Lite	$0.10	$0.40	1M	极致便宜，批量处理首选

DeepSeek

模型	输入（$/MTok）	输出（$/MTok）	上下文窗口	定位
DeepSeek V3.2	$0.28（缓存$0.028）	$0.42	128k	极致性价比，编程强
DeepSeek R1	$0.28（缓存$0.028）	$0.42	128k	推理增强版，带思考链

通义千问（Qwen）

模型	输入（$/MTok）	输出（$/MTok）	上下文窗口	定位
Qwen3.5-Plus	$0.12-$0.57	$0.69-$3.44	1M	中文主力，价格波动大
Qwen3-Max	$0.36-$1.00	$1.43-$4.01	262k	中文旗舰，理解力强
Qwen-Flash	$0.05-$0.25	$0.40-$2.00	1M	最便宜的中文名模型

Kimi（月之暗面）

模型	输入（$/MTok）	输出（$/MTok）	上下文窗口	定位
Kimi K2.5	~$0.60	~$1.30	256k	中文长文本+Agent
Kimi K2 Thinking	按思考token计费	—	256k	带思维链的推理模式

核心发现：价格差178倍不是夸张

把所有模型按输出价格从低到高排：

排名	模型	输出价格（$/MTok）	对比Claude Opus
1	Gemini 2.5 Flash-Lite	$0.40	1/62
2	DeepSeek V3.2	$0.42	1/59
3	GPT-4.1 mini	$1.60	1/16
4	Kimi K2.5	~$1.30	1/19
5	Gemini 2.5 Flash	$2.50	1/10
6	o4-mini	$4.40	1/6
7	Claude Haiku 4.5	$5.00	1/5
8	GPT-4.1	$8.00	1/3
9	Gemini 2.5 Pro	$10.00	2/5
10	Claude Sonnet 4.6	$15.00	3/5
11	GPT-4o	$10.00	2/5
12	Claude Opus 4.6	$25.00	1x
13	o3	$40.00	1.6x

最便宜的Gemini Flash-Lite和最贵的o3之间差了100倍。这不是选择题，是预算题。

真实场景成本模拟：$100能跑多少

我用4种典型开发场景模拟了成本。假设每个场景处理1000次请求，每次平均输入2000 token、输出500 token。

场景一：AI客服机器人（对话场景）

每次请求：2000 token输入 + 500 token输出

模型	单次成本	1000次总成本	$100能跑次数
Gemini Flash-Lite	$0.0005	$0.50	200,000次
DeepSeek V3.2	$0.0007	$0.70	142,857次
Claude Haiku 4.5	$0.0045	$4.50	22,222次
Claude Sonnet 4.6	$0.0135	$13.50	7,407次
Claude Opus 4.6	$0.0225	$22.50	4,444次

结论：客服场景用Gemini Flash-Lite或DeepSeek V3.2就够了，不需要上Claude。同样是$100，Gemini能跑20万次对话，Claude Opus只能跑4400次。

场景二：长文档RAG（输入密集型）

每次请求：50,000 token输入 + 2000 token输出（文档摘要/问答）

模型	单次成本	1000次总成本	$100能跑次数
DeepSeek V3.2（缓存）	$0.0019	$1.90	52,631次
Gemini Flash	$0.0205	$20.50	4,878次
Claude Sonnet 4.6	$0.1800	$180.00	555次
Claude Opus 4.6	$0.3000	$300.00	333次

关键发现：DeepSeek的缓存命中机制在RAG场景中是杀手锏。50K token的输入，缓存命中后成本从$0.014降到$0.0014——降了10倍。如果你做知识库问答，DeepSeek的缓存策略能让成本降到Claude的1/100。

Claude Sonnet虽然贵，但在长文档可靠性上确实更强（幻觉控制远好于DeepSeek），适合对准确性要求极高的场景（法律、医疗、金融）。

场景三：代码生成Agent（输出密集型）

每次请求：5000 token输入 + 8000 token输出

模型	单次成本	1000次总成本	$100能跑次数
DeepSeek V3.2	$0.0045	$4.50	22,222次
Claude Sonnet 4.6	$0.1350	$135.00	740次
Claude Opus 4.6	$0.2250	$225.00	444次

这里有一个需要权衡的问题：DeepSeek V3.2在SWE-bench上的编程分数不如Claude Sonnet 4.6（Novita测试数据：非思考模式Kimi 40% vs DeepSeek 39%，差距不大；但Claude Sonnet 4.6官方数据72.7%，差距明显）。

我的建议：日常增删改查用DeepSeek V3.2，复杂架构设计和Bug修复切Claude Sonnet。路由策略能让你花DeepSeek的钱、拿到接近Claude的质量。

场景四：中文内容批量生成

每次请求：1000 token输入 + 3000 token输出（写一篇短文）

模型	单次成本	1000次总成本	中文质量
Qwen-Flash	$0.0017	$1.70	中等
Qwen3.5-Plus	$0.0042	$4.20	优秀
Kimi K2.5	$0.0045	$4.50	优秀
Gemini Flash	$0.0078	$7.80	良好
Claude Sonnet 4.6	$0.0480	$48.00	优秀

中文内容生成，Kimi K2.5和通义千问3.5-Plus是性价比最高的选择。Kimi的优势是幻觉控制更好（Novita测试：思考模式54% vs DeepSeek 18%），通义千问的优势是价格更低、阿里云生态集成方便。

我的省钱配置方案

跑了半个月测试后，我总结出3套实用配置。根据你的月预算直接选就行。

方案一：月预算$10以内（个人开发者/学生）

日常编码：DeepSeek V3.2（$0.28/$0.42）
复杂问题：DeepSeek R1（同价，带思考链）
中文写作：通义千问Flash（$0.05/$0.40）
预估月费：$5-8（日均100次请求）

DeepSeek免费额度：注册赠送500万token，够你跑一个月日常编码。通义千问新用户注册送100万token免费额度。

方案二：月预算$30-50（小团队/独立开发者）

主力编程：Claude Haiku 4.5（$1.00/$5.00）
复杂Agent：Claude Sonnet 4.6（$3.00/$15.00，按需切换）
日常对话/批量：DeepSeek V3.2 + 缓存策略
中文长文：Kimi K2.5
预估月费：$30-45

这套方案的核心是用DeepSeek消化80%的简单请求，只在需要Claude的Agent能力时才切换。配合API路由中间件（如LiteLLM），可以实现自动路由。

方案三：月预算$100+（正式产品）

核心业务逻辑：Claude Sonnet 4.6
高并发请求：Gemini Flash-Lite 或 Flash
中文内容：Kimi K2.5 + 通义千问
推理任务：o4-mini（比o3便宜80%，够用）
预估月费：$80-120

关键优化点：

80%的请求走Gemini Flash-Lite（$0.10/$0.40），成本极低
15%的请求走DeepSeek V3.2+缓存
5%的复杂请求才走Claude Sonnet
部署LiteLLM做模型路由，自动按任务类型选择模型

缓存策略：被低估的成本杀手

大部分人只知道选模型，不知道用缓存。但缓存能帮你把成本再降一个数量级。

各厂商缓存机制

厂商	缓存机制	缓存折扣	说明
DeepSeek	自动缓存	输入降90%（$0.028）	5分钟内重复输入自动命中
Anthropic	Prompt Caching	输入降90%	需手动标记缓存前缀，24小时有效
Google	Context Caching	按小时计费	适合大文档，$1/百万token/小时
OpenAI	自动缓存	输入降50%	免费层自动命中，无需配置
通义千问	自动缓存	输入降30-50%	免费额度内自动启用

DeepSeek的缓存是最激进的——5分钟内重复请求直接打1折。如果你在跑循环处理数据，每轮都用类似的system prompt，缓存命中率可以到80%以上。这意味着实际成本只有标价的20-30%。

Anthropic的Prompt Caching也很实用——你可以在system prompt前面加一个cache_control标记，后续所有请求只要system prompt不变，输入成本直接打1折。对于固定的Agent配置（工具定义、角色设定不变），这个优化效果巨大。

速度对比：不只是钱的问题

速度直接影响用户体验。API响应慢一倍，用户流失率可能翻倍。

模型	输出速度（tok/s）	首字延迟（非思考）	思考模式延迟
Kimi K2.5	103-116	1.1秒	18.3秒
Gemini Flash	80-100	0.5秒	不适用
Claude Haiku 4.5	60-80	0.8秒	不适用
Claude Sonnet 4.6	40-60	1.5秒	15-30秒
DeepSeek V3.2	31	1.2秒	65.7秒
Claude Opus 4.6	20-30	2.0秒	30-60秒

Kimi K2.5的速度碾压其他模型——103-116 tok/s，是DeepSeek V3.2的3倍。如果你做实时对话应用，Kimi的体感速度明显更好。DeepSeek的非思考模式延迟还行（1.2秒），但思考模式延迟高达65.7秒，用户等一分钟才看到第一个字，体验很差。

踩坑经验

1. Claude Opus的钱烧得比你想象的快

Claude Opus 4.6输出$25/百万token，听起来不多，但你跑一个Agent循环——它先读10个文件（20万token输入），再改代码（1万token输出），一轮下来就是$5.3。跑20轮就是$106。

我实测过一个代码重构任务，Claude Opus花了$47完成了DeepSeek花$1.8就能搞定的工作。Opus的质量确实好一些，但不是$47对$1.8这种差距。

建议：日常用Sonnet或Haiku，只在遇到Sonnet解决不了的问题时才升级Opus。把Opus当"专家门诊"，不要当"全科医生"。

2. DeepSeek缓存要5分钟才生效

DeepSeek的缓存是自动的，但不是即时的——需要5分钟内重复输入才会命中。如果你是单次请求（比如每次输入都不同），缓存几乎没用。只有批量处理、循环调用、或者多用户共享system prompt的场景，缓存才有价值。

3. 通义千问的价格不稳定

通义千问的API定价有区间（如Qwen3.5-Plus输入$0.12-$0.57），这是因为不同时段、不同渠道价格不同。阿里云百炼平台新用户有优惠，但优惠结束后价格会上浮。建议锁定百炼平台的年度套餐，比按量付费便宜30-50%。

4. o3/o4-mini的思考token要额外花钱

OpenAI的推理模型（o3、o4-mini）的"思考过程"也按token计费。你看到的响应可能只有500个输出token，但它内部可能"思考"了2万个token——这些你都得付钱。我遇到过一次o3调用，输出看起来很简短，结果账单显示消耗了4万token。

建议：推理模型只在确实需要深度推理的场景使用（数学证明、复杂逻辑），日常编码和对话完全不需要。

5. Kimi的免费额度别浪费

Kimi网页版免费可用，200万字超长上下文，中文体验很好。如果你只是偶尔需要AI帮忙，Kimi免费版完全够用，不需要开API。API更适合集成到产品里做自动化。

模型路由工具推荐

手动切换模型太麻烦，推荐用路由中间件自动分配：

工具	类型	特点	适合
LiteLLM	开源Python库	统一API格式，支持20+模型，自动fallback	Python项目、个人开发者
OpenRouter	托管服务	一个API Key访问所有模型，按需路由	快速集成、不想自建
阿里云百炼	国内平台	中文模型选择多，新用户有免费额度	国内项目
OneAPI	开源自部署	支持自定义路由规则、负载均衡	企业内网、高并发

我自己用的是LiteLLM——配置文件里定义几条路由规则（简单对话走Gemini Flash、编程走DeepSeek、复杂任务走Claude Sonnet），应用代码里只调一个统一的API，路由自动分配。月费从之前的$60降到了$25。

FAQ

Q1：开发AI应用，必须用付费API吗？ A：不一定。DeepSeek注册送500万token、通义千问新用户送100万token、[Kimi](https://www.aitoolbox.hk/tools/kimi/index.html)网页版免费200万字上下文。MVP阶段用免费额度完全可以跑起来。等到有真实用户、需要稳定可用时再上付费API。

Q2：DeepSeek真的比Claude便宜那么多吗？质量差距大吗？ A：价格确实差几十倍。质量上，日常编码和简单任务差距很小（Novita测试：非思考编码Kimi 40% vs DeepSeek 39%，几乎一样）。差距主要体现在复杂推理和Agent场景——Claude Sonnet 4.6的SWE-bench分数（72.7%）远高于DeepSeek。建议简单任务用DeepSeek，复杂任务切Claude。

Q3：Gemini Flash和Flash-Lite怎么选？ A：Flash-Lite便宜5-6倍，但推理能力弱一些。如果你的场景是分类、提取、翻译、格式转换这类不需要深度推理的任务，Flash-Lite就够。如果需要一定的理解力和推理能力（如问答、总结），用Flash。简单判断标准：如果Flash-Lite的输出准确率能接受，就用Flash-Lite——差价太大，值得试。

Q4：Claude的Prompt Caching怎么用？ A：在API请求中，给你的system prompt加上cache_control: {"type": "ephemeral"}标记。Anthropic会自动缓存标记部分的内容，24小时内重复使用不重新计费。适合system prompt固定的Agent场景——工具定义、角色设定不变的部分全部缓存，输入成本直接降90%。

Q5：月预算$200，做一款AI写作助手产品，怎么分配？ A：推荐分配：Gemini Flash-Lite处理50%请求（$10）、DeepSeek V3.2+缓存处理30%（$10）、Claude Sonnet 4.6处理15%高质量请求（$30）、Kimi K2.5处理5%中文优化（$5）。预留$145做buffer和意外用量。核心是不要让Claude处理所有请求——它很贵，但不是所有请求都需要它。

总结

2026年3月的大模型API市场有几个明确信号：

国产模型在价格上碾压海外：DeepSeek V3.2缓存后输入$0.028/MTok，是Claude Opus的1/178、GPT-4o的1/89。Kimi K2.5的生成速度是DeepSeek的3倍。

不要用旗舰模型做所有事：Claude Opus和o3是"手术刀"，不要拿它切菜。80%的请求用DeepSeek或Gemini Flash就够了，省下来的钱拿去优化产品体验。

缓存是隐形的成本武器：DeepSeek的自动缓存和Anthropic的Prompt Caching能帮你把输入成本降到1/10。做Agent开发不配缓存，等于开车不踩油门。

路由中间件是标配：LiteLLM这类工具让你一个API调用就能在10+模型之间自动切换，不需要改业务代码。省时省钱。

如果这篇文章帮你省了钱，关注[AI工具宝箱](https://www.aitoolbox.hk/)，后续我会持续更新各模型的实测数据和性价比分析。AI工具的定价每个月都在变，这篇数据我会按季度刷新。