π0(pi-zero) 是 Physical Intelligence的 First Generalist Policy,一个通用的机器人基础模型,堪称经典之作。
π0 通过从一个预训练的视觉语言模型(VLM)开始,继承了互联网规模预训练的语义知识和视觉理解,有效的将网络上的语义知识迁移过来,输出离散的 language tokens。通过流匹配(扩散模型的一种变体)来增强预训练 VLMs,使其能够输出连续的动作。
最近做了一些 Pi0 模型的部署和加速,对 Pi0 的结构算是比较了解了,在此整理总结一下。
