Zhao Dongyu's Blog

A life which is unexamined is not worth living.

0%

Physical Intelligence is bringing general-purpose AI into the physical world.

π 系列堪称经典。前段时间实践了 π0 的真机部署与加速,最近又做了 π0.5 的仿真,感觉是时候系统整理一波了。

Read more »

前几天 openai 隆重推出 gpt-oss,模型的 MoE 部分采用了 MXFP4 格式让人震惊,这大大减少了对内存的依赖。

Read more »

RTX4090有一个很奇特的特性,使用 fp16 accum 的 matmul 的吞吐量是使用 fp32 accum 的 matmul 的两倍。

这是非常诱人的加速!

Read more »

今天Deepseek开源 FlashMLA,之前看过一些 MLA 相关知识了,感觉这是一个很好的学习 Cuda 加速的机会,于是实践学习记录一下。

Read more »

This project records the process of optimizing SGEMM (single-precision floating point General Matrix Multiplication) on the riscv platform.

Read more »

本项目记录了在riscv平台上优化SGEMM(单精度浮点通用矩阵乘法)的过程。

Read more »

Set up a flag: the completion progress reaches 100%

Now at 99%

Read more »