Zhao Dongyu's Blog

A life which is unexamined is not worth living.

0%

RTX4090有一个很奇特的特性,使用 fp16 accum 的 matmul 的吞吐量是使用 fp32 accum 的 matmul 的两倍。

这是非常诱人的加速!

Read more »

今天Deepseek开源 FlashMLA,之前看过一些 MLA 相关知识了,感觉这是一个很好的学习 Cuda 加速的机会,于是实践学习记录一下。

Read more »

This project records the process of optimizing SGEMM (single-precision floating point General Matrix Multiplication) on the riscv platform.

Read more »

本项目记录了在riscv平台上优化SGEMM(单精度浮点通用矩阵乘法)的过程。

Read more »

Set up a flag: the completion progress reaches 100%

Now at 99%

Read more »

0、背景

0.0 前年(2021)

我在北京的校园里,设计并制作了一个六重竹笋,《六重蓝笋成长记(上)》《六重蓝笋成长记(下)》,开始体会到竹笋的乐趣,并立志于做更高重的笋。

0.1 去年(2022)

我在上海的某个特殊时期,闲得实在是无聊,制作了 视频:从入门到夺笋,以缓解不能出去玩的郁闷,并立志于做更高重的七重(七色彩虹)竹笋。

Read more »