Zhao Dongyu's Blog

A life which is unexamined is not worth living.

0%

π0(pi-zero) 是 Physical Intelligence的 First Generalist Policy,一个通用的机器人基础模型,堪称经典之作。

π0 通过从一个预训练的视觉语言模型(VLM)开始,继承了互联网规模预训练的语义知识和视觉理解,有效的将网络上的语义知识迁移过来,输出离散的 language tokens。通过流匹配(扩散模型的一种变体)来增强预训练 VLMs,使其能够输出连续的动作。

最近做了一些 Pi0 模型的部署和加速,对 Pi0 的结构算是比较了解了,在此整理总结一下。

Read more »

前几天 openai 隆重推出 gpt-oss,模型的 MoE 部分采用了 MXFP4 格式让人震惊,这大大减少了对内存的依赖。

Read more »

RTX4090有一个很奇特的特性,使用 fp16 accum 的 matmul 的吞吐量是使用 fp32 accum 的 matmul 的两倍。

这是非常诱人的加速!

Read more »

今天Deepseek开源 FlashMLA,之前看过一些 MLA 相关知识了,感觉这是一个很好的学习 Cuda 加速的机会,于是实践学习记录一下。

Read more »

This project records the process of optimizing SGEMM (single-precision floating point General Matrix Multiplication) on the riscv platform.

Read more »

本项目记录了在riscv平台上优化SGEMM(单精度浮点通用矩阵乘法)的过程。

Read more »

Set up a flag: the completion progress reaches 100%

Now at 99%

Read more »