04月
13

DeepSeek 开源周盛大开幕:推出大模型加速神器FlashMLA 解码能力跃升至3000GB/s

15:43:45

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA,这是一款专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核。该技术特别针对变长序列场景进行优化,可显著提升大模型推理性能。

QQ20250224-101526.png

FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力水平。

该项目已经过生产环境验证,展现出优异的稳定性。开发团队表示,FlashMLA的设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验,并在此基础上实现了创新突破。

开发者可通过简单的安装命令快速部署FlashMLA:只需执行"python setup.py install"即可完成安装,随后可运行测试脚本"python tests/test_flash_mla.py"体验其性能。

开源地址:https://github.com/deepseek-ai/FlashMLA

+1
0

好文章,需要你的鼓励

下一篇

近日,由xAI开发的Grok APP推出了实时语音模式,支持 10 种模式 ,用户可通过语音与AI互动,进一步提升使用体验。然而,一名X平台用户

2025-04-13 15:30:45

24小时热榜
最近更新