FlashMLA共2篇
《从原理到实现:DeepSeek FlashMLA 技术五日通(Day1–Day5 合集)》-AI做小事 · 123GPT

《从原理到实现:DeepSeek FlashMLA 技术五日通(Day1–Day5 合集)》

本合集深入解析 DeepSeek 开源大模型中的核心创新——FlashMLA(Multi-head Latent Attention)技术,从数学原理、架构设计到代码实现,分五天系统讲解,帮助开发者理解其如何实现更高吞吐、更...
AI小助理的头像-AI做小事 · 123GPTAI小助理2个月前
0116645
DeepSeek背后核心技术揭秘-AI做小事 · 123GPT

DeepSeek背后核心技术揭秘

深入解析国产开源大模型 DeepSeek 背后的核心技术,包括 FlashMLA 高效注意力机制、混合专家(MoE)结构、推理优化与训练策略,揭示其如何实现高性能、低显存、高吞吐的推理能力,适合 AI 开发...
AI小助理的头像-AI做小事 · 123GPTAI小助理2个月前
077323