深度对谈 vLLM 团队：如何从零搭建一个成功的开源生态

Update: 2024-07-03

Description

本期的嘉宾是 vLLM 团队的李卓翰、Simon Mo、柳晓萱 Lily、游凯超，和真格基金管理合伙人戴雨森。

两年时间，vLLM 从加州大学伯克利分校的一个 Demo 项目成长为全球范围内最受欢迎的开源大模型推理加速框架。AI 技术不断突破极限，大语言模型正处于浪潮之巅。而在开发以外，模型的部署常常受到推理速度过慢、GPU 利用率过低的阻碍。vLLM 以 PagedAttention 核心算法，支持 30+ 生成式大语言模型，多种硬件厂商的适配和前沿的优化，能够做到与 Hugging Face Transformers 相比 24 倍的吞吐量。

昨天，真格基金正式宣布对 vLLM 项目进行捐赠。对于创造未来的重要基石，我们愿尽绵薄之力。本期播客，我们请来了 vLLM 项目的四位主要团队成员以及主导这次捐赠的真格基金管理合伙人戴雨森，聊聊 vLLM 背后的开源故事，以及这个项目是如何在 AI 浪潮中势如破竹的。

在本期节目里，我们聊到了 vLLM 如何在短短两年成为了炙手可热的开源大模型推理加速框架？从学界项目起始，vLLM 团队是如何精准发挥自身优势同时进行适应的？为何 vLLM 开源项目能够建立起如此活跃的技术社区生态，吸引全球人才共创？vLLM 的团队如何看待商业化，他们对作为开源项目的 vLLM 有什么愿景？相信无论你是大模型领域的技术开发者，还是对 AI 的发展与创新感兴趣，抑或是开源社区的经营者，这期节目都能带给你启发。

【本期嘉宾】

戴雨森真格基金管理合伙人

李卓翰加州大学伯克利分校博士生， vLLM 创始人之一，目前负责 vLLM 的高层设计与开源社区管理

Simon Mo 加州伯克利分校博士生，目前在 vLLM 承担产品经理/开源社区生态管理的角色

柳晓萱加州伯克利分校博士生，目前在 vLLM 负责科研导向的设计与改进

游凯超清华博士生，赴伯克利访问，目前在 vLLM 负责开源内容的维护管理

【时间轴】

02:07 vLLM 项目与团队的基本介绍

12:04 在 vLLM 之前，没有 LLM 推理框架尝试在多请求角度做优化

15:38 从零到一，成为最快、最好用的开源引擎

23:12 「大卫战胜哥利亚」，开源模式和代码质量是核心

30:22 开源传统塑造学界与业界「探索性+实用性」的火花碰撞

32:35 开源发布之后，vLLM 的目标不再是只是速度

35:27 一个模型火了，关于这个模型的 issue 就会疯狂增加

40:20 发论文可以有很多前提条件，但做系统需要解决所有极端情况

43:51 未来大模型会更倾向于场景驱动，探索模型效率的极限

45:52 vLLM 选择做的与选择不做的

50:50 建立起广泛的贡献者生态没有什么诀窍，就是一个一个来

58:32 要抑制自己动手的冲动，让社区慢慢成长起来

01:02:39 PMF 出现在当 PR 开始爆炸性增长而我们没精力去提供新的功能时

01:03:10 在 vLLM 做科研是一个正向迭代的过程

01:07:10 更多硬件和模型支持、更高的性能优化，vLLM 会持续构建和维护开源

01:11:43 我们很高兴能做一个非商业化的项目，让大家都能更好地商业化

01:16:57 vLLM 团队关注的新鲜开源项目与书籍分享

【相关资料】

vLLM 项目 GitHub 网址：https://github.com/vllm-project/vllm

vLLM 项目：vLLM 是大语言模型的推理与服务引擎。简单来说，vLLM 的主要功能是将训练好的模型部署到生产环境里，着重于效率与成本，让模型推理变快，让 GPU 更能物尽其用，最终让 AI 产品落地更快。技术上来讲，vLLM 是一个基于 PagedAttention 核心算法的开源项目，支持 30+ 生成式大语言模型，多种硬件厂商的适配和前沿的优化。

PagedAttention ：是一种内存管理算法，它被设计用于优化大型语言模型（LLM）中的注意力（Attention）机制。PagedAttention 的核心思想是利用操作系统的分页（Paging）和虚拟内存技术来管理 Transformer 模型注意力操作里的 KV 缓存（KV Cache），使得大型语言模型在推理过程中能更有效地利用计算资源。

KV（Key-Value）：在注意力机制中，输入数据被分为两部分：键（Key）和值（Value）。模型通过计算键和查询（Query）之间的相似度来确定每个值的重要性。

<sp

Comments

Top Podcasts

The Best New Comedy Podcast Right Now – June 2024 The Best News Podcast Right Now – June 2024 The Best New Business Podcast Right Now – June 2024 The Best New Sports Podcast Right Now – June 2024 The Best New True Crime Podcast Right Now – June 2024 The Best New Joe Rogan Experience Podcast Right Now – June 20 The Best New Dan Bongino Show Podcast Right Now – June 20 The Best New Mark Levin Podcast – June 2024

In Channel

在奥运前夕，和有志者 Uzis 创始人聊聊中国运动消费市场

2024-07-2501:05:48

对话秦佑铭：从 MaRS 实验室到“留形”机，打造最真实的虚拟世界

2024-07-1651:21

深度对谈 vLLM 团队：如何从零搭建一个成功的开源生态

2024-07-0301:22:55

戴雨森：拥抱时代、乐观和年轻人的力量｜串台AI科技评论Talk

2024-07-0201:06:06

好的 AI 就应该像哆啦 A 梦 | Koji x Yusen

2024-07-0201:25:56

对话多邻国Kevin：“小绿鸟”是如何炼成的

2024-05-2301:19:10

瀚为科技刘奕杨：从「天坑专业」到博士创业，找到水系电池商业化新解

2024-05-0638:22

对话右脑科技梁健：北大毕业，成为跃入AI时代的人

2024-04-2646:02

对话边塞科技吴翼：当 AI 不再追求更强，当人生必须做出选择

2024-04-0248:18

NEIWAI内外刘小璐：穿越商业周期的东方哲学

2024-03-2101:09:15

OpenAI Sora发布：背后的商业洞察与技术创新

2024-02-2201:09:55

对话井英科技朱江：AI+短剧，会诞生新时代的抖音吗？

2024-01-3052:25

对话KY钱庄：当疗愈成为时代需求，更普世的心理服务形态存在吗？

2024-01-1758:15

道路很拥挤，来试试打飞的

2023-12-0855:35

大病小病的检测器，关于体外诊断你了解多少

2023-11-0701:14:52

对话李楠：从魅族到怒喵，不变的审美与消费者洞察

2023-10-2054:40

今天，我们尝试打开自动驾驶的"黑匣子"

2023-09-2501:02:50

挑战用AI写微小说，没想到95%的时间用在和AI搏斗

2023-09-1101:51:10

和北大脑科学家聊聊焦虑、食欲、与勇气

2023-08-2801:02:45

XR泡沫和趋势：从多边形游戏到现实融合

2023-07-2658:06

00:00

1.0x

深度对谈 vLLM 团队：如何从零搭建一个成功的开源生态

#box-pro-ellipsis-173174221358480{-webkit-line-clamp:2;}深度对谈 vLLM 团队：如何从零搭建一个成功的开源生态

深度对谈 vLLM 团队：如何从零搭建一个成功的开源生态

深度对谈 vLLM 团队：如何从零搭建一个成功的开源生态