Marlin Kernel是IST-DASLab 开发的GPTQ量化模型高性能 FP16(activation) x INT4(weight) GEMM算子实现,在现有W4A16 GEMM Kernel中,Marlin Kernel性能是最好的。
作为一个不会cuda的小白,研究完marlin算子之后神清气爽,
【长文预警 & 多图预警】
Marlin Kernel是IST-DASLab 开发的GPTQ量化模型高性能 FP16(activation) x INT4(weight) GEMM算子实现,在现有W4A16 GEMM Kernel中,Marlin Kernel性能是最好的。
作为一个不会cuda的小白,研究完marlin算子之后神清气爽,
【长文预警 & 多图预警】
学习C++
做一些在树莓派zero w
上面的实验,这里记录一下整体流程。
近期在Mac M1上使用tensorflow,发现不能用了。报错:
The TensorFlow library was compiled to use AVX instructions, but these aren't available on your machine.
其实最近心思一直在把之前的推理框架的工作能够沉淀一下发一篇论文,今天丁大佬教育我不要闭门造车,不要局限于推理框架,多看看别人的工程学习学习,学学triton、TVM、mlc-llm这些东西。很受用。
听人劝,吃饱饭。开始学习 triton
扎实基础,系统学习。
在 Hopper H20 平台优化 FlashMLA。
研究了一下 tensorflow 实现 int8 量化的 softmax 算子
“`torch.compile“` speeds the flame,
Trade-offs linger, but worth the game.
Train or infer, it cuts the line,
With care and craft, its power’s thine.