DeepSeek于2025年3月25日发布了其最新版本的V3模型,名为DeepSeek-V3-0324。该模型在多个方面实现了显著的能力提升,特别是在编程、数学推理和中文写作方面,接近甚至超越了国际领先水平。
主要能力提升
1. **编程能力**:
• DeepSeek-V3-0324在代码生成方面表现出色,能够生成高质量的前端代码,包括HTML和CSS。用户反馈显示,该模型能够在短时间内生成数百行无错误的代码,并实现动态响应式布局和交互效果,接近Claude 3.7的水平。
2. **数学推理**:
• 新版本在数学和逻辑推理方面也有显著提升。它能够解决复杂的数学问题,如经典的“4升水壶问题”和数学竞赛题(如AIME 2025题目),部分表现接近专业推理模型。
3. **中文写作**:
• 在中文写作任务方面,DeepSeek-V3-0324基于R1的写作水平进行了进一步优化,特别提升了中长篇文本创作的内容质量,生成的文本更加详实准确,排版也更加美观。
技术架构与开源策略
• DeepSeek-V3-0324采用了混合专家(MoE)架构,利用动态路由技术实现高效的参数激活,尽管模型总参数高达6850亿,但每个token实际仅激活约37亿参数,显著提升了推理速度。
• 该模型继续采用MIT许可证,允许用户自由使用、修改和分发模型,推动了AI技术的普及和创新。
用户体验优化
• 默认关闭“深度思考”模式,响应速度加快,适合快速迭代任务。
• API接口与V3版本兼容,开发者可以无缝迁移,支持多平台(官网、移动端、API、OpenRouter)。
• 输出风格调整,语气更技术化、正式化,提升专业场景实用性。