深度对谈 vLLM 团队:如何从零搭建一个成功的开源生态
Description
本期的嘉宾是 vLLM 团队的李卓翰、Simon Mo、柳晓萱 Lily、游凯超,和真格基金管理合伙人戴雨森。
两年时间,vLLM 从加州大学伯克利分校的一个 Demo 项目成长为全球范围内最受欢迎的开源大模型推理加速框架。AI 技术不断突破极限,大语言模型正处于浪潮之巅。而在开发以外,模型的部署常常受到推理速度过慢、GPU 利用率过低的阻碍。vLLM 以 PagedAttention 核心算法,支持 30+ 生成式大语言模型,多种硬件厂商的适配和前沿的优化,能够做到与 Hugging Face Transformers 相比 24 倍的吞吐量。
昨天,真格基金正式宣布对 vLLM 项目进行捐赠。对于创造未来的重要基石,我们愿尽绵薄之力。本期播客,我们请来了 vLLM 项目的四位主要团队成员以及主导这次捐赠的真格基金管理合伙人戴雨森,聊聊 vLLM 背后的开源故事,以及这个项目是如何在 AI 浪潮中势如破竹的。
在本期节目里,我们聊到了 vLLM 如何在短短两年成为了炙手可热的开源大模型推理加速框架?从学界项目起始,vLLM 团队是如何精准发挥自身优势同时进行适应的?为何 vLLM 开源项目能够建立起如此活跃的技术社区生态,吸引全球人才共创?vLLM 的团队如何看待商业化,他们对作为开源项目的 vLLM 有什么愿景?相信无论你是大模型领域的技术开发者,还是对 AI 的发展与创新感兴趣,抑或是开源社区的经营者,这期节目都能带给你启发。
【本期嘉宾】
戴雨森 真格基金管理合伙人
李卓翰 加州大学伯克利分校博士生, vLLM 创始人之一,目前负责 vLLM 的高层设计与开源社区管理
Simon Mo 加州伯克利分校博士生,目前在 vLLM 承担产品经理/开源社区生态管理的角色
柳晓萱 加州伯克利分校博士生,目前在 vLLM 负责科研导向的设计与改进
游凯超 清华博士生,赴伯克利访问,目前在 vLLM 负责开源内容的维护管理
【时间轴】
12:04 在 vLLM 之前,没有 LLM 推理框架尝试在多请求角度做优化
30:22 开源传统塑造学界与业界「探索性+实用性」的火花碰撞
35:27 一个模型火了,关于这个模型的 issue 就会疯狂增加
40:20 发论文可以有很多前提条件,但做系统需要解决所有极端情况
43:51 未来大模型会更倾向于场景驱动,探索模型效率的极限
50:50 建立起广泛的贡献者生态没有什么诀窍,就是一个一个来
01:02:39 PMF 出现在当 PR 开始爆炸性增长而我们没精力去提供新的功能时
01:07:10 更多硬件和模型支持、更高的性能优化,vLLM 会持续构建和维护开源
01:11:43 我们很高兴能做一个非商业化的项目,让大家都能更好地商业化
01:16:57 vLLM 团队关注的新鲜开源项目与书籍分享
【相关资料】
vLLM 项目 GitHub 网址:https://github.com/vllm-project/vllm
vLLM 项目:vLLM 是大语言模型的推理与服务引擎。简单来说,vLLM 的主要功能是将训练好的模型部署到生产环境里,着重于效率与成本,让模型推理变快,让 GPU 更能物尽其用,最终让 AI 产品落地更快。技术上来讲,vLLM 是一个基于 PagedAttention 核心算法的开源项目,支持 30+ 生成式大语言模型,多种硬件厂商的适配和前沿的优化。
PagedAttention :是一种内存管理算法,它被设计用于优化大型语言模型(LLM)中的注意力(Attention)机制。PagedAttention 的核心思想是利用操作系统的分页(Paging)和虚拟内存技术来管理 Transformer 模型注意力操作里的 KV 缓存(KV Cache),使得大型语言模型在推理过程中能更有效地利用计算资源。
KV(Key-Value):在注意力机制中,输入数据被分为两部分:键(Key)和值(Value)。模型通过计算键和查询(Query)之间的相似度来确定每个值的重要性。
<sp