今天遇到段错误,旁观大佬一番操作定位解决。
大大提高开发效率的关键几步,值得记录一下。
给定特定的计算平台,我们的算法实现是不是已经榨干硬件平台的最大能力,还有没有进一步改善的空间?这些问题寻寻觅觅答案,真像雾里看花,我们渴望有一双慧眼,帮我们穿透迷津。
学习Roofline,有一种理论指导实践的感觉。
学习Final Cut Pro的笔记,提高生产力。
今天看的论文的排版真的太好看了!开始学习LaTeX
,整个过程记录一下。
万物皆可RSS!
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Marlin Kernel是IST-DASLab 开发的GPTQ量化模型高性能 FP16(activation) x INT4(weight) GEMM算子实现,在现有W4A16 GEMM Kernel中,Marlin Kernel性能是最好的。
作为一个不会cuda的小白,研究完marlin
算子之后神清气爽,
【长文预警 & 多图预警】
开始学习 ComfyUI,学学文生图相关的知识
vLLM 支持 FP8(W8A8)了,开始学习fp8 ,写一个 FP8(W4A8)算子,减少一些IO吞吐,看看能不能提升性能。