Physical Intelligence is bringing general-purpose AI into the physical world.
π 系列堪称经典。前段时间实践了 π0 的真机部署与加速,最近又做了 π0.5 的仿真,感觉是时候系统整理一波了。
Physical Intelligence is bringing general-purpose AI into the physical world.
π 系列堪称经典。前段时间实践了 π0 的真机部署与加速,最近又做了 π0.5 的仿真,感觉是时候系统整理一波了。
前几天 openai 隆重推出 gpt-oss,模型的 MoE 部分采用了 MXFP4 格式让人震惊,这大大减少了对内存的依赖。
之前在 FlashMLA 源码分析 分析了 FlashMLA 的源码,后来我又实践了一下,在此记录一下进一步的学习成果。
今天Deepseek开源 FlashMLA,之前看过一些 MLA 相关知识了,感觉这是一个很好的学习 Cuda 加速的机会,于是实践学习记录一下。
Deploy LLMs for infinite-length inputs without sacrificing efficiency and performance.
This project records the process of optimizing SGEMM (single-precision floating point General Matrix Multiplication) on the riscv platform.

本项目记录了在riscv平台上优化SGEMM(单精度浮点通用矩阵乘法)的过程。
本文聚焦于AWQ的W4A16 (4-bit weight, 16-bit activation) CUDA kernel的反量化。