Zhao Dongyu's Blog

A life which is unexamined is not worth living.

0%

今天Deepseek开源 FlashMLA,之前看过一些 MLA 相关知识了,感觉这是一个很好的学习 Cuda 加速的机会,于是实践学习记录一下。

Read more »

This project records the process of optimizing SGEMM (single-precision floating point General Matrix Multiplication) on the riscv platform.

Read more »

本项目记录了在riscv平台上优化SGEMM(单精度浮点通用矩阵乘法)的过程。

Read more »

Set up a flag: the completion progress reaches 100%

Now at 99%

Read more »

0、背景

0.0 前年(2021)

我在北京的校园里,设计并制作了一个六重竹笋,《六重蓝笋成长记(上)》《六重蓝笋成长记(下)》,开始体会到竹笋的乐趣,并立志于做更高重的笋。

0.1 去年(2022)

我在上海的某个特殊时期,闲得实在是无聊,制作了 视频:从入门到夺笋,以缓解不能出去玩的郁闷,并立志于做更高重的七重(七色彩虹)竹笋。

Read more »

最近学习一些telegram bot,记录一下

Read more »

最近做了一些转置卷积的相关部署工作,最开始搞的时候其实有点晕头转向的,总是试图在用卷积的计算方式反过来理解转置卷积,尤其是看到padding部分和stride部分,搞得我头更大了,心想怎么这么反人类?(后来发现是我理解的问题,其实一点也不反人类)

现在也算是了解了具体工作机制以及加速方式,在这里整理总结一下。欢迎留言、指正 :)

Read more »