2024 年 12 月,国内人工智能公司 DeepSeek 推出最新开源大型语言模型 DeepSeek-V3。它运用混合专家(MoE)架构,参数高达 6710 亿,处理每个 token 时激活 370 亿参数,在多领域基准测试里成绩出众,力压 Llama 3.1、Qwen 2.5,直追 GPT-4o、Claude 3.5 Sonnet 等业界顶尖闭源模型。
以下是DeepSeek-V3与一些同类模型(如Llama 3.1、GPT-4、Claude 3.5 Sonnet、Qwen 2.5等)的参数对比表:
模型名称 | 总参数量 | 激活参数量 | 架构 | 推理速度 | 训练成本 | 发布时间 |
---|---|---|---|---|---|---|
DeepSeek-V3 | 6710亿 | 370亿 | 混合专家(MoE) | 60 tokens/s | $5.58M | 2024年12月 |
Llama 3.1 | 3200亿 | 3200亿 | Transformer | 25 tokens/s | 未公开 | 2024年11月 |
GPT-4o | 1万亿 | 1万亿 | Transformer | 15 tokens/s | 超过$100M | 2024年6月 |
Claude 3.5 | 8500亿 | 8500亿 | Transformer | 18 tokens/s | 未公开 | 2024年10月 |
Qwen 2.5 | 4300亿 | 4300亿 | 基于Transformer改进 | 30 tokens/s | 未公开 | 2024年11月 |
此外,DeepSeek-V3在推理速度上也取得了显著突破,推理速度比之前的模型提高了3倍,达到每秒60个token。
值得注意的是,DeepSeek-V3的训练成本约为558万美元,耗时约55天,显示了在有限资源下的高效优化能力。
用户可以通过DeepSeek的官方网站免费体验DeepSeek-V3,或通过API进行集成。
此外,DeepSeek-V3的模型权重已在GitHub上开源,开发者可以下载并在本地进行部署。
总体而言,DeepSeek-V3作为开源模型,在性能和效率上均达到了当前的领先水平,为人工智能领域的研究和应用提供了强大的工具。
而且现在已经放出了 DeepSeek-V3 的Q4_k_m 量化版本了,大小比原本的小一半。
DeepSeek-V3 的Q4_k_m 量化版本:【点击下载】