之前在 FlashMLA 源码分析 分析了 FlashMLA 的源码,后来我又实践了一下,在此记录一下进一步的学习成果。
FlashMLA 源码分析
今天Deepseek开源 FlashMLA,之前看过一些 MLA 相关知识了,感觉这是一个很好的学习 Cuda 加速的机会,于是实践学习记录一下。
Efficient Streaming Language Models with Attention Sinks
Deploy LLMs for infinite-length inputs without sacrificing efficiency and performance.
Optimize sgemm on RISC-V platform
This project records the process of optimizing SGEMM (single-precision floating point General Matrix Multiplication) on the riscv platform.
在riscv平台优化SGEMM
本项目记录了在riscv平台上优化SGEMM(单精度浮点通用矩阵乘法)的过程。
WeightonlyGEMM:dequantize_s4_to_fp16x2代码解析
Posted on
Edited on
Symbols count in article: 8.9k Reading time ≈ 8 mins.
Symbols count in article: 8.9k Reading time ≈ 8 mins.
本文聚焦于AWQ的W4A16 (4-bit weight, 16-bit activation) CUDA kernel的反量化。
Battlegrounds
Homogeneous_ShangHai
Posted on
Edited on
Symbols count in article: 3.9k Reading time ≈ 4 mins.
Symbols count in article: 3.9k Reading time ≈ 4 mins.
0、背景
0.0 前年(2021)
我在北京的校园里,设计并制作了一个六重竹笋,《六重蓝笋成长记(上)》和《六重蓝笋成长记(下)》,开始体会到竹笋的乐趣,并立志于做更高重的笋。
0.1 去年(2022)
我在上海的某个特殊时期,闲得实在是无聊,制作了 视频:从入门到夺笋,以缓解不能出去玩的郁闷,并立志于做更高重的七重(七色彩虹)竹笋。
Telegram bot
Posted on
Edited on
Symbols count in article: 1.8k Reading time ≈ 2 mins.
Symbols count in article: 1.8k Reading time ≈ 2 mins.
最近学习一些telegram bot,记录一下
一文搞懂转置卷积的定义、计算和加速
Posted on
Edited on
Symbols count in article: 5.3k Reading time ≈ 5 mins.
Symbols count in article: 5.3k Reading time ≈ 5 mins.
最近做了一些转置卷积的相关部署工作,最开始搞的时候其实有点晕头转向的,总是试图在用卷积的计算方式反过来理解转置卷积,尤其是看到padding
部分和stride
部分,搞得我头更大了,心想怎么这么反人类?(后来发现是我理解的问题,其实一点也不反人类)
现在也算是了解了具体工作机制以及加速方式,在这里整理总结一下。欢迎留言、指正 :)