在知乎看到这么一句话:
跟着好好上韩松的课程,把 lab 都自己认真做一遍,特别是 AWQ 那套算法和推理的框架 (quantizaiton),只要能读懂整套代码,就能自己回答你问的问题了~
感觉自己其实没有一个系统的学习,于是跟着韩松学习一遍,在此记录一下。
学习C++
其实最近心思一直在把之前的推理框架的工作能够沉淀一下发一篇论文,今天丁大佬教育我不要闭门造车,不要局限于推理框架,多看看别人的工程学习学习,学学triton、TVM、mlc-llm这些东西。很受用。
听人劝,吃饱饭。开始学习 triton
研究了一下 tensorflow 实现 int8 量化的 softmax 算子
扎实基础,系统学习。
学习研究文生视频
近期在Mac M1上使用tensorflow,发现不能用了。报错:
The TensorFlow library was compiled to use AVX instructions, but these aren't available on your machine.
做一些在树莓派zero w
上面的实验,这里记录一下整体流程。
在 Hopper H20 平台优化 FlashMLA。
“`torch.compile“` speeds the flame,
Trade-offs linger, but worth the game.
Train or infer, it cuts the line,
With care and craft, its power’s thine.