DiscoverOnBoard!EP 64. 对话 Comfy 核心中国力量:多模态生成全球狂奔之年,开源与商业化发生了什么
EP 64. 对话 Comfy 核心中国力量:多模态生成全球狂奔之年,开源与商业化发生了什么

EP 64. 对话 Comfy 核心中国力量:多模态生成全球狂奔之年,开源与商业化发生了什么

Update: 2024-12-25
Share

Description

OnBoard! 我们首次来到日本东京,在六本木新城森大厦,面对着著名的东京塔完成了录制。11 月 16 日,由 Comfy 中国社区创始团队发起的 Comfy Community Summit(CCS)全球社区峰会第二站来到东京,从 ComfyUI 主题出发,邀请了海内外知名的 AI 创作者、前沿论文作者、插件和工作流开发者还有大模型训练专家等到场分享,我们不仅看到了多模态生成领域各角色之间碰撞出的火花,更重要的是看到了中国创作者与开源爱好者在全球化中扮演了越来越重要的地位。

Hello World, who is onboard?

这一期趁着主办方还在东京,我们邀请了 CCS 的两位重要发起人,国内最大的 AI 社群 WayToAGI 的主理人 AJ 和前 Stability AI 的工程师 Yizhou,还有老朋友 Huggingface 工程师 Tiezhen,以及在图像生成领域创业的本地创业者 TheSEA AI 的创始人 Yanjin 一起,回顾多模态生成领域今年的里程碑与 Comfy 开源社区的兴起,以及在商业场景尤其是日本市场落地的探索,最后讨论了 AI 开源力量在中国以及全球化的崛起。

嘉宾分别来自开源社区的创始团队、大模型及开源平台工程师,还有本地创业者,我们畅聊了以下话题:

  • 过去一年多模态生成领域出现了哪些里程碑,背后又代表了什么趋势?
  • CCS 发起的历史背景,为什么这次会放在东京,以及有哪些不一样的收获?
  • 多模态生成具体在商业落地上有哪些突破,尤其在日本市场看到了哪些实践?
  • WaytoAGI 社区是如何建立的,为什么会成为中国最大的 AI 开源社区,未来还有哪些规划?
  • 今年国内开源基础大模型也在全球社区悉数亮相,海外内对开源投入的差异和挑战在哪里?

希望本期节目对积极实践开源、全球化创业和 AI 的爱好者们都有帮助,enjoy!

嘉宾介绍

  • AJ:国内最大 AI 开源社区 WaytoAGI 的主理人,也是 CCS 中国社区创始成员。CCS 是全球首次汇聚 AI 开源社区核心开发者与创作者的盛会,由中、美两地 AI 开源爱好者共同发起,于 2024 年正式启动,是亚洲生成式 AI 领域专业性最强、共创活跃度最高的开源社区之一。
  • Yizhou Zheng:曾在 StabilityAI 负责推理工作流优化及 SD3.5 基础模型训练,Diffusion 社区玩家,CCS、Diffusem发起人,GitHub: github.com/Dango233。
  • Tiezhen Wang:Huggingface 工程师,他可以说是中国与世界开源 AI 生态的桥梁,更是从 Google TensorFlow 时代到 Huggingface 早期员工,对中国和世界的开源 AI 生态都有极深的洞察。
  • Yanjin Li:TheSEA 联合创始人兼 CEO,同时也是东京大学在读博士生。TheSEA AI 专注于为品牌提供创新的视觉生成 GenAI 解决方案,致力于提升创意效率与视觉表达效果。
  • OnBoard!主持:高宁,Global SaaS/AI 社区 Linkloud 联合创始人。前美元 VC 投资人,公众号我思锅我在 (ID: thinkxcloud) 主理人,即刻:High寧。

我们都聊了什么

01:59 四位嘉宾自我介绍,以及举办或参加这次 CCS 的最大感受。

09:27 在图像生成领域,今年对推动应用落地的重要节点是什么?

10:51 什么是 ComfyUI 以及 CCS 社区的起源背景?

12:51 ComfyUI 与 WebUI 的核心区别在哪里,为什么前者逐渐成为主流?

20:20 现在有哪些方式在进一步降低 ComfyUI 的使用门槛?

22:58 把作品最终交给商业客户之前,还需要做哪些产品化?

26:06 CCS 全球峰会发起的背景以及为什么第二次放在东京?

37:12 峰会里的嘉宾是如何挑选以及分别代表哪种角色?

44:18 过去一年,多模态生成技术出现了哪些重要里程碑?

49:45 Stable Diffusion 3.5 诞生的背景以及对产业最大的影响可能在哪里?

56:00 从商业视觉角度,如何驾驭现在各类模型以便在特定行业做有效发散?

61:11 如何快速在 SD 3.5 的基础上微调出想要的风格?

63:00 视觉模型越来越大,端侧小模型的机会和空间在哪里?

68:50 模型厂商该如何建设生态以及吸引更多开发者参与使用?

72:53 TheSEA 成立的背景以及在日本市场看到了什么机会?

77:30 文生图领域在日本哪些行业落地,挑战在哪里?

82:36 哪些工作流已经发生改变,或者卡点又在哪里?

85:30 商业视觉生成的需求中日之间的差异在哪里,预期有何不同?

89:11 为什么 AI 不会让创作者“失业”,反而会增加?

94:21 多模态领域还将出现哪些 AI native 的应用或者行业?

98:43 回到商业落地,企业目前最关注的地方在哪里,如何能让他们用好?

101:15 技术角度,目前是如何推动可控性的提升?

103:55 WaytoAGI 社区的起源和定位是怎样的?

107:25 如何能在社区里调动不同背景和角色的人积极做贡献?

109:48 如何不断迭代优化知识库,坚持开源?

112:50 国内大模型厂商在开源社区的里程碑有哪些,以及有什么最佳实践?

116:35 对于开源初创公司,该如何高效地投入开源建设?

119:45 四位嘉宾对明年的期望和工作重心将在哪里?

提到的公司、技术或相关介绍

以上就是我们本期播客的全部内容,如果各位也有想要我们去访谈的公司或者创始人,非常欢迎大家在评论区给我们留言。感谢大家的收听。如果你喜欢我们的 Podcast,欢迎你点赞并且分享给感兴趣的朋友。如果你在用 Apple podcasts 收听,也希望你花几秒钟打个五星好评,这对我们非常重要!

最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!

Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

EP 64. 对话 Comfy 核心中国力量:多模态生成全球狂奔之年,开源与商业化发生了什么

EP 64. 对话 Comfy 核心中国力量:多模态生成全球狂奔之年,开源与商业化发生了什么