Discover晚点聊 LateTalk
晚点聊 LateTalk
Claim Ownership

晚点聊 LateTalk

Author: 晚点 LatePost

Subscribed: 135Played: 961
Share

Description

《晚点聊 LateTalk》是《晚点 LatePost》出品的播客节目
由洪浩、陈晶、曼祺和汉洋主持
片言可以明百意,坐驰可以役万景
82 Episodes
Reverse
「大家都是牛马,凭啥你加夜草」——轶轩 和节目的老朋友丰泽聊聊人活着有啥意思,可以算是和王小伟老师那期《每个人活着都难受》那期的另一个版本。大部分问题想清楚很简单,想开了很难。意义的神圣感和吃饭喝水一样,是人的刚需。人活着有啥意思不是个虚无缥缈的问题;尤其是当代社会充斥着各种各样的「以工代赈」,工作意义早已被掏空。但人的价值不(光)是靠工作体现的。评价指标出了问题,不是人出了问题。 相关链接: 每个人活着都不舒服 (https://podcast.latepost.com/69) 圣山与山 (https://shanyouhu.xyz/2) 没有签证怎么去非洲干活:和丰泽聊聊在非洲不同国家打灰的体验 (https://podcast.latepost.com/46) 是理想也是现实:一个清华博士的非洲选择|文化纵横 (https://mp.weixin.qq.com/s/BDYm_nZZsoy25QppUuKmrA) 登场人物: 丰泽:海洋于他们而言如同河流 汉洋:现前一段西来意,一片西飞一片东 后期:甜食 封面:烟火,汉洋拍摄于日本
汉洋和重轻借着聊小红书,谈了谈游戏社区这件事。但这期节目的内容可能和你想的不一样——他俩没有聊游戏社区是什么,而是就着游戏社区谈了一个更大的问题:游戏是如何从一项简单的娱乐活动,变成了生活本身?并且接着游戏社区这个话题,分析了一下到底什么是社区。不过因为这期节目录制的比较早,所以没聊到黑神话。 这期的 shownotes 里没有时间节点,是因为这期节目整体上就是一场逻辑推演。每个环节之间都有上下文语境之间的关系。 本期节目聊到了: 1. 这期节目是怎么来的 2. 作为一种出版物的电子游戏 3. 游戏的消费方式 4. 早期只有资讯,没有社区的游戏 5. 关键问题,游戏如何演化成了⽣活的⼀部分? 6. 关键线索一:从买断制到持续运营 7. 关键线索二:更多的消费方式 8. UGC 基础设施的普及 9. 社会生活的底层逻辑 10. ⼀转眼,社区远⼤于游戏游玩 11. 到底什么是社区? 名词解释: UGC:用户生成内容 相关链接: 汉洋关于小红书的文章《小红书的造梦都市》 (https://hanyang.wtf/p/354) 为了写文章弄的美妆号(不咋更新) (https://www.xiaohongshu.com/user/profile/644a7438000000001f0312f0?xhsshare=CopyLink&appuid=65bfaba6000000000903f49e&apptime=1726624320&share_id=231ddf88bdac4b15aecef0f32d1fb1be) 小红书账号:汉洋在拍照 (https://www.xiaohongshu.com/user/profile/65bfaba6000000000903f49e?xhsshare=CopyLink&appuid=65bfaba6000000000903f49e&apptime=1726625265&share_id=04f15a42775e458c8c7bda47454baa0f) 如何获得快乐:与重轻唠唠游戏产业的科普 (https://podcast.latepost.com/22) 按下快门,记录镜头下的沉玉谷绝美景色! (https://www.xiaohongshu.com/explore/66821155000000001e012fea?secondshare=weixin&share_from_user_hidden=true&appuid=&apptime=1722666916&xsec_source=h5_share&xsec_token=CB83gMGeBKxeviyPIQrwrwBRiHOzRN5ejO2wjn5hr5UOw%3D) 风男们跳magnetic😱🙌🏻!!! (https://www.xiaohongshu.com/explore/667d0335000000001f007774?app_platform=ios&app_version=8.47&share_from_user_hidden=true&xsec_source=app_share&type=video&xsec_token=CBuO6yQ1nh5slK8IeuAzSJ-DyaNuNr4Eau9qBJ5IcDK-I%3D&author_share=1&xhsshare=WeixinSession&shareRedId=ODYzNzg3NUs2NzUyOTgwNjY0OTdGSUxC&apptime=1722673228) 【原神无UI】无缝转场,极致丝滑 (https://www.xiaohongshu.com/explore/66a4c65d0000000027011bf0?app_platform=ios&app_version=8.47&share_from_user_hidden=true&xsec_source=app_share&type=video&xsec_token=CB2QQNbdrySDQdX_syMPu12gcrmGDCFB8-O0UchZ3FUtA%3D&author_share=1&xhsshare=WeixinSession&shareRedId=Nzw3N0g9SUw_TEc3QEA3PEo0Tz45SUdM&apptime=1722667076) 痛耳机:全网首个魈宝痛耳机 (https://www.xiaohongshu.com/explore/6621e90800000000010047f5?app_platform=ios&app_version=8.53&share_from_user_hidden=true&xsec_source=app_share&type=video&xsec_token=CBA-2IJzNrYTli4sVP_A0ywdxNufva-nbZq_7bRbMTyWA%3D&author_share=1&xhsshare=CopyLink&shareRedId=ODtERkRHRT82NzUyOTgwNjY8OTpKOT9O&apptime=1726673032) 自制散兵联名特饮:买不到?无所谓,姐教你自己做! (https://www.xiaohongshu.com/explore/668a2ead000000000a006036?app_platform=ios&app_version=8.47&share_from_user_hidden=true&xsec_source=app_share&type=video&xsec_token=CB5MU7x42rLyKdPVSF4MH5lbuPqsKu5c3wd24on4T3iR0%3D&author_share=1&xhsshare=WeixinSession&shareRedId=Nzw3N0g9SUw_TEc3QEA3PEo0Tz45SUdM&apptime=1722667476) Has Genshin Impact Ruined Conventions? (https://www.youtube.com/watch?v=FmiilbXTv44) 恋与深空与猫 (https://www.xiaohongshu.com/explore/668e6b58000000002501597f?app_platform=ios&app_version=8.47&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBAYg88TMa-xDDxMyJhntzu3d1Jdvza9RxQ5lZHtEr4j8%3D&author_share=1&xhsshare=WeixinSession&shareRedId=Nzw3N0g9SUw_TEc3QEA3PEo0Tz45SUdM&apptime=1722669406) 绝区零模仿小红书的桥段 (https://www.xiaohongshu.com/explore/668fa72e0000000025006088?app_platform=ios&app_version=8.47&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CB6Og1a04U9wLPSfabqqhhf3Jl9HRPo3nTdnuOZG9Jcl8%3D&author_share=1&xhsshare=WeixinSession&shareRedId=Nzw3N0g9SUw_TEc3QEA3PEo0Tz45SUdM&apptime=1722670845) 登场人物: 重轻:播客《不在场》主理人 汉洋:朋友你关注我小红书了吗? 后期:甜食 题图:汉洋的猫在看游戏
GPU 算力总消耗会提升,但暂时有冗余;AI 应用开发热情未冷却,只是不被 VC 关注。 今天的节目是一期加更,我们在 OpenAI 最新模型 o1 发布后的第二天,邀请了硅基流动创始人袁进辉与我们讨论了 o1 这一新进展,也分享了今年 1 月至今,袁进辉观察到的 AI 开发者社区的变化。 上次袁进辉做客《晚点聊》是今年 1 月,那时他刚开始新一次创业没多久,选择做服务 AI 开发者的推理(inference,即大模型的使用)加速和优化。 OpenAI o1 的一个重要新特性,正是从扩大 train-time compute 的规模到扩大 test-time compute(见下图,来自 OpenAI 官方博客),即通过在推理阶段分配更多计算资源提升模型效果——也有人称之为从 train scaling laws 到 inference scaling laws。 https://cdn.z.wiki/autoupload/20240916/1tKi/1280X794/1280X1280.PNG 英伟达 AI 科学家 Jim Fan 说,这可能是自 2022 年 DeepMind 提出 Chinchill Scaling Laws(原版 Scaling Laws 上的一个优化)以来,大模型研究中最重要的一张图。 总结而言,o1 打破了一个预期:过去在大语言模型范式下,模型在解决推理逻辑问题时遇到了瓶颈。而 o1 通过强化学习(Reinforcement Learing,也被简称为 RL)、思维链(chain of thought)和测试时间计算(test-time compute)显著提高了模型的逻辑推理能力,所以在科学、数学和编程等需要更多逻辑能力的任务上表现大幅提升。 这期播客里,袁进辉比较通俗地解释了强化学习、思维链,还有 test-time compute 是怎么发挥作用的。我们也讨论了 o1 的这些新技术特性对算力消耗量,行业应用还有其它 AI 公司的动作可能有什么影响。 节目后半部分,我们进一步讨论了 AI 开发者生态这一年的变化。与很多人的观点不同,袁进辉说,在应用开发端,他没有感到 AI 热潮的冷却,只是现在涌现出的很多开发者是小微企业甚至是个人开发者,他们不在传统 VC 的视野里。所以一方面,创投市场会觉得 AI 应用的爆发不如预期,另一方面,实际调用量也在快速增长。 他还分享了一些一手数据:比如硅基流动自己的客户,调用最多的开源模型,国外是 Meta 的 Llama,中国则有阿里巴巴的通义千问和幻方的 DeepSeek,千问的优势是不同规模的模型版本齐全,而 DeepSeek 则在编程能力上突出。 时间线传送: ·o1 的“Wow”在于突破了大模型方法下的推理能力瓶颈 02:56 o1 发布,兑现了之前已被逐步释放的高预期 03:57 模型三重能力:语言、常识、推理,前两者之前已做得比较好,o1 提升了第三点 05:25 “弱智吧”是大模型试金石? 06:35 同样使用强化学习,AlphaGeometry 关注度为何没有 o1 高?——强化学习本身不新了,Alpha 家族的 Wow 时刻已经发生,o1 的进展是打破了大语言模型推理弱的预期 10:28 o1 新方法:强化学习、思维链、test-time compute 11:06 强化学习和思维链,都是在解决数据问题 11:34 强化学习可以补充专业数据,它更适合规则清晰、反馈清晰的领域 16:50 思维链(chain of thought)是在补充抽象层次较高的宏观数据 23:09 强化学习和思维链可以正交,比如可以通过强化学习也生成一系诶思维链分步骤数据 25:07 列出思维链:最初是人写,现在可能是用规则,更优雅是靠模型 29:19 test-time compute,这不是直接补充数据缺陷,而是原本做一次的推理(inference)变成做 N 次,就像人的“深思琢磨” 31:18 强化学习、思维链、放更多资源给推理,每一个单独看都不是石破天惊的 idea,但 OpenAI 做了很好的组合 34:36 “2022 年以来大模型领域最重要的一张图”,揭示 inference scaling law ·总算力需求会提升,短期有冗余,o1 不改变训基础模型公司减少的趋势 36:49 o1 新范式意味着需要更多 GPU 吗?对英伟达的影响? 38:51 猜想,预训练和强化学习的具体结合方式 40:56 算力需求也和参数规模相关,推理核心本身的参数可能不会特别大 43:32 从 API 收费看,目前 o1 推理成本可能是 4o 的几十倍 47:05 o1 最适合用在哪儿?Agent 可能能跑通了 48:45 程序员是最适合的 Agent 吗?辅助程序员在 o1 前就在发生 50:13 脑洞:o1 这类模型继续发展,能解决黎曼猜想吗? 54:28 目前 o1 很慢,但有优化空间,一个技术应用的规律是:效果在早期更重要,之后缩短计算时间、降低计算成本几乎是确定性的 58:15 为什么目前 API 调用对速率有限制,且不支持一些功能? 01:00:14 当前可做的推理优化:并行部分思维链计算,减少不必要的思维链过程 01:04:20 新变化也让一些工作可能没必要了,比如复杂的 prompt 工程 01:06:06 o1 对中国的影响:总体不改变训基础模型的公司变少的趋势 01:10:48 去年至今,GPU 算力价格已在下降,训练需求减少,推理需求增长暂时不会弥补,短时间 GPU 有冗余 ·AI 应用开发需求未冷却,只是更分散、更小微、个人化 01:13:13 供给端有调整,但在技术应用端,“我没有感到变冷” 01:15:13 更多个人开发者和小微企业做探索,更多其他行业来尝试,因为不需要完整 AI 班子了 01:18:33 应用未冷却和 VC 市场觉得应用没爆发不矛盾,因为对 VC 还太小 01:19:52 硅基流动推出云服务后增长很快。“如果每天和开发者打交道,不会觉得行业停滞或在变冷” 01:20:31 一些增长快的产品例子,捏他 01:21:38 云服务带来便捷的例子:Koji 十分钟写完 emoji AI 翻译器 01:24:20 继续坚定出海,目前硅流海外客户更多 01:26:32 硅流平台被调用最多的开源模型:通义、DeepSeek、Llama 01:27:39 “需求在这边时,谁都来帮你的忙” 01:29:27 硅流平台上的客户,每天调用数亿到 10 亿 token 的是有的 01:30:22 叶军分享的钉钉 AI 付费的启发:用户现在为小功能付费,而不是复杂大应用 01:32:46 从苹果手机可能是入口,到“巨头递减” 01:38:02 我们看到大模型的“瓦特蒸汽机”了吗? 相关链接: 本期播客文字整理版 (https://mp.weixin.qq.com/s/zHDgDFG85xu3kFcAwpJfwA) 袁进辉上次做客晚点聊:《58:光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么?》 (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a) 硅基流动云平台 SiliconCloud https://siliconflow.cn/zh-cn/siliconcloud 《OpenAI 再次给大模型 “泡沫” 续命》(《晚点 LatePost》关于 OpenAI o1 的文章) (https://mp.weixin.qq.com/s/0SZp-YX_NyLx8XqIEEyJLQ) “蹭下热度谈谈 OpenAI 的价值”(播客中提到的中科院张俊林微博) (https://m.weibo.cn/status/5078239682499316?sourceType=weixin&from=10E9195010&wm=9856_0004&featurecode=newtitle&s_channel=5&s_trans=1064649941_5078239682499316&jumpfrom=weibocom) 登场人物: 袁进辉,硅基流动创始人。联系可加微信:SiliconFlow01 程曼祺,晚点科技报道负责人。即刻:程曼祺_火柴Q 贺乾明,晚点科技报道作者。即刻:我是 chiming 剪辑:甜食
经过去年的技术猛进,今年下半年,市场对 AI 的关注焦点逐渐变成大模型到底怎么落地,怎么创造价值? 在诸多大模型落地的潜在方向中,SaaS,即面向企业和专业工作者的软件服务被认为可能是最快、最确定的一个。 今天的嘉宾是有十年 AI SaaS 经验的科大讯飞副总裁王玮。她是语音技术研发出身,2015 年主导负责和开发了中国最早的 AI SaaS 产品“讯飞听见”,这是一款语音转写 SaaS。去年,讯飞又将旗下的讯飞听见、讯飞会议、讯飞同传、讯飞写作等办公产品整合为智能办公 SaaS 平台。 我们与王玮聊了过去一年大模型对讯飞的 SaaS 业务带来的冲击与机会,过去十年她做 AI SaaS 的经验和教训,以及更久之前,她作为语音技术研发人员的职业成长故事。 在讯飞成立的 1999 年,中国还没有成熟的风投、融资创业不是主流,这是一家第一天就要平衡赚钱生存与研发投入的公司。在现在的创新、创业环境下,这种平衡也是很多想做大模型的公司要面临的情形。讯飞听见的故事可能是一个参考。 时间线传送: ·大模型给 AI SaaS 带来的冲击与变化 02:34 去年讲技术节点,精确到几月几号;今年全行业重点变成讲落地 05:53 AIGC 的价值是把人从机械工作中解放出来 07:17 讯飞也在侧重消费者业务板块,但投放上不是烧钱拉新逻辑 13:21 一批新公司主打免费,讯飞为何继续收费? 14:28 语音转写的体验差异要看困难场景的表现:多语种混杂,多人对话 16:14 从方言保护到语音技术的演变:过去需要语言学家,现在是技术驱动,未来可能需要对语言重新深入了解 20:10 大模型本身不足以解决“鸡尾酒会场景”等语音难点,还要配合工程能力积累 20:57 讯飞也在探索端到端语音技术 ·讯飞做 AI SaaS 的十年经验:软件+硬件+服务一起做 24:18 2010 年,讯飞第一次尝试消费者业务,做语音输入法 26:23 讯飞听见的诞生:语音输入法使用短语音技术,想做投入更大的长语音,需要一边研发,一边赚钱 26:48 AI 会带来失业吗?速记行业的“反讯飞联盟”的消失 29:11 讯飞听见一开始就同时做 to B 和 to C 30:07 to B 要适配国产操作系统,且要自己设计硬件工作站,方便企业私有化部署 32:50 产品经验:软件+硬件+服务 34:08 做 SaaS 一直要面临的抉择:更通用 or 更垂直(定制)? 36:43 具体场景案例:讯飞怎么做深会展场景? 41:25 为什么做 SaaS 也应该做硬件? 43:57 离线版的升级需要派人去做本地服务,需要做好交付团队和生态 46:05 AI SaaS 要追求 3 个成功:产品成功、市场成功、财务成功 ·聊未来:出海与行业悬念 52:39 AI SaaS 出海数据法规最严的欧洲,合规经验 57:08 未来一年,AI SaaS 的行业悬念——会不会有新商业模式 本期人物: 王玮,科大讯飞副总裁、听见科技总经理 程曼祺,晚点科技报道负责人,即刻/小红书:曼祺_火柴Q 剪辑:甜食
东南亚,曾是许多中国投资人心中的“应许之地”。 2017 年前后,中国打车、团购大战告一段落,在“时光机理论”的指引下,投资人将数百亿美元投向打车与外卖平台 Grab、Gojek,电商平台 Lazada、Sea、Tokopedia等,他们希望在这里找到下一个阿里、美团或是滴滴。 然而,Grab 自 2020 年上市至今市值已跌去 76%、Gojek 与 Tokopedia 合并后的印尼最大科技公司 GoTo 自 2022 年至今市值已跌去 85%。 东南亚市场今天还有人投资吗?电商大战还在打吗? TikTok、Temu 这样效率更高、手段更狠的新对手,给 Shopee、Lazada这样的老玩家带来了怎样的冲击? 今天我们请来了非常熟悉东南亚电商市场情况的朋友,墨腾创投创始人李江玕,他既在东南亚一线做过业务,也做过东南亚本地投资,现在墨腾创投(https://mp.weixin.qq.com/s/3JgndVfD_P6qAqhrSjVz5g)会定期输出对东南亚市场的观察。 李江玕曾担任打车平台 Easy Taxi 和外卖平台 Foodpanda 的东南亚区域 CEO,这两个业务都由德国孵化器Rocket Inteternet 投资,它孵化的另一个更为大众所知的项目,是今天东南亚第三大电商平台 Lazada。 内容摘要: 10:22 老板太粗鲁,球赛输了......外国员工辞职的理由你想不到 11:57 东南亚不是铁板一块,而是多个风格文化各异的国家市场 24:04 Lazada 为什么东南亚没打过 Shopee? 32:00 Temu 的低价打法,在原本已经非常低价的东南亚市场,还会奏效吗? 38:13 美团外卖出海有多大机会? 44:33 东南亚电商第一名 Shopee 今天面临的挑战:新对手效率更高,更算法驱动 53:10 TikTok 收购 Tokopedia 后,整合得怎么样了? 01:02:18 TikTok 和 Temu,组织管理的明显分野 01:11:00 谁还在投资东南亚?投资什么? 登场人物: 李江玕:墨腾创投 CEO,长期扎根东南亚 陈晶,晚点 LatePost 记者,正在看出海(微信:tiema233) 剪辑:甜食 封面图:Lazada的街头快递员 扫描二维码,可关注《晚点 LatePost》: https://0.z.wiki/autoupload/20240808/nlN5/1050X1164/%E6%99%9A%E7%82%B9%E4%BA%8C%E7%BB%B4%E7%A0%81.jpeg
本期节目,我们访谈了智能驾驶供应商 Momenta 的创始人曹旭东。 Momenta 是曹旭东第一次创业,他 8 年前成立这家公司时刚满 30 岁。这之前,曹旭东在清华学物理,后来获得直博机会,但他中途从清华退学,转而去微软亚研院做 AI 视觉研究;2014 年,他加入了刚成立的商汤,创业前,他是商汤的研发总监。 在 2020 年之前, Momenta 都谈不上耀眼,它好像从来没成为过智驾行业里的 AI 四小龙或大模型五虎般的存在。而在 2021 年,这家公司却在一年里融了 10 亿美元,它的大部分融资都发生在这一年。 背后的逻辑也简单:特斯拉在 2020 年大卖,仿佛一夕之间,量产高阶方案就被接受了,而 Momenta 一直在做这件事,过去没什么反响,如今有了客户,而且是最多客户——目前 Momenta 手里有最多的智能驾驶车型定点——包括上汽智己,这是 Momenta 的第一个大客户,还有后来的比亚迪、广汽等等,数量超过了华为。 所以现在智驾行业里有一个新组合,叫“地大华魔”,指地平线、大疆、华为 和 Momenta,它们被认为是智能驾驶供应商里的头部玩家。 现在这一批 AIGC 公司的故事有些像自动驾驶的昨天:极高的期待,大额的融资,优秀的人才,在短时间里汇聚到一起。而一批智驾公司的今天,则展现了一个黑科技领域发展 10 年后可能会是什么样子。 我们和曹旭东讨论了 2023 年以来智驾领域的诸多变化,以及 Momenta 的策略与选择。这个行业还有很多悬念:车企与智驾供应商应该如何分工?在端到端大模型的大方向下,怎么选择具体的技术路线?未来市场格局会有多集中?能容纳多少公司?活下来的公司会是什么形态? 这次访谈的文字版,之前已经发布在《晚点》的公众号上,可见 shownotes 里的链接。 时间线传送: ·FSD 半年进化了几十倍,智驾在买车决策里更重要了 03:10 一年半前最担忧的事是 L2+ 不能真的帮车企卖车 04:12 技术进步,华为问界的催化改变了局面 07:07 部分车企等不及自研,更积极用供应商 08:41 FSD 进中国为是好事,卷价值,而非卷价格 10:07 欧美客户试乘后的评价 12:01 智驾公司盈利的条件 12:46 如何衡量智驾供应商的位置?体验、客户质量、客户数量 13:57 三维度对比,华为 vs Momenta ·超越智驾摩尔定律,未来第一名会占 70% 市场份额 16:31 智驾摩尔定律:每两年硬件 BOM 成本降一半,软件性能提升 10 倍 17:42 产业链定位,为什么 Momenta 做 Tier 1(直接给车企供货的一级供应商),而非 Tier 2? 18:56 整车追求差异化,智驾则没有差异化,只有好与更好 20:10 垂直整合,原因与边界 21:54 价位下探,未来 15 万的车也会标配高阶智能驾驶 22:34 和高通合作则不仅为性价比,也为上油车、混动 23:41 同时和英伟达、高通合作,什么体验? 25:26 低水平竞争可能会在两年内结束 27:17 智驾出海的机会和挑战 ·端到端不难,难的是做高端到端的下限 29:02 端到端大方向下可能有 10000 条路 30:17 Momenta 开发端到端:用神经网络做感知→用神经网络做决策(deep learning planning)→感知、决策合成一个大模型 32:07 2021 年底的重要选择,当年底交付的方案到底用模型方法还是用规则方法? 35:39 新方案如何让客户信任 38:36 做出端到端不难,提高下限难,这是个体系工作 40:49 如何提高持续做对技术判断的概率?——低成本短周期试错 44:23 “正确的大方向”举例:围绕交付建立高效体系 46:11 短期压力导致短期救火,导致团队崩溃,坚持主线产品不分叉很重要 ·“做有杠杆的事” 51:11 多发钱、高人效 51:45 Momenta 如何从 400 人交一个车型到现在几个人交一个车型 53:40 公司现在最大的杠杆,产品能和技术 54:37 组织目前的杠杆:持续招到和晋升更好的人 58:16 把公司战略穿到身上 01:00 重要决策来自小会议,人数一个车上能坐下 01:02 成为最终头部的挑战,全球化 01:03 在六道口试乘无图端到端,车上聊天 相关链接: 对话 Momenta 曹旭东:超越智驾的摩尔定律 https://mp.weixin.qq.com/s/QAZvo8xNw8UyIotyer7rEw 本期人物: 曹旭东,没有驾照的智驾公司创始人 程曼祺,晚点科技报道负责人,即刻/小红书:曼祺_火柴Q 剪辑:甜食 附录:自动驾驶图示 & 播客中提到的一些术语 https://cdn.z.wiki/autoupload/20240808/xDyU/1080X870/640.webp 自动驾驶有感知(Perception)、规划与决策(Planning)和控制(Control)三个模块,靠感知 “看”,靠决策 “思考” 怎么开车,靠控制模块完成驾驶行为。 端到端技术现在一般指从感知到决策,整个过程用一个大模型实现。 而过去的智驾技术系统,尤其是决策模块会使用大量编程写就的规则,而不是用深度学习来做。 我们在播客中聊到,Momenta 做端到端的过程,是先用深度神经网络做了感知,这是 2021 年之前很多公司就能做到的事,接着是在 2022 年用深度学习做了决策,也就是反复提及的“deep learning planning”,之后在 2023 年把两个分段的模型合成了一个端到端模型。 扫描二维码,可关注《晚点 LatePost》: https://0.z.wiki/autoupload/20240808/nlN5/1050X1164/%E6%99%9A%E7%82%B9%E4%BA%8C%E7%BB%B4%E7%A0%81.jpeg
https://cdn.z.wiki/autoupload/20240804/ZqwC/1930X1285/WechatIMG2124.jpg 谭熠在清华的实验室。 核聚变发电,理论上需要的燃料重量只有煤炭的 1/10000000,不会排放二氧化碳,也不会像现在的核裂变发电站那样,可能泄漏危害环境上百年的辐射物质,被视为终极能源。 全球的科学家们研究了 70 多年,都没有把它变成现实。今年 7 月,核聚变工业协会(FIA)发布报告称,有 5 家公司计划在 2030 年之前实现核聚变发电,还有 21 家定在 2035 年之前。 核聚变发展真到了这个地步吗? 这期节目,我们邀请到了核聚变领域的资深研究者和创业者谭熠。他说,核聚变领域也存在 “Scaling Laws”,这本身是一个物理概念:把核聚变装置的尺寸、磁场感应强度和磁场利用效率提高后,就能达到更好的效果。“资金投入多了很多,有很多激励机制高效、效率高的公司参与,会大幅加速这个过程。” 谭熠 2002 年就在清华大学攻读核聚变方向博士,毕业后留在清华继续研究核聚变,现在他是清华大学副教授、博士生导师,管着清华大学的核聚变装置。2021 年,他创办星环聚能,成为中国首批核聚变创业者。现在他们在西安建成了核聚变装置,并成功点亮了等离子体,验证了技术路线。 他们计划在 2027 年建成下一代核聚变装置,目标是让核聚变输出的能量是输入能量的 10 倍,到时候距离核聚变发电就更近了。谭熠说,按照他们的计划,普通人再过 10 年就能用上核聚变发的电。 https://cdn.z.wiki/autoupload/20240804/YrKw/622X368/3854602d-65fb-4eaa-b631-2ded318d562e.gif 动图:星环聚能运行第一代核聚变装置,点亮等离子体。图片来自星环聚能。 本期节目我们聊了:   核聚变行业现状&研究历史 01:55 - 我们不能用之前几十年核聚变的发展速度去判断后面核聚变的发展速度。 04:13 - 聚变成功肯定是一件收益无限的事情,但是怎么达到这个目标,其实大家并不清楚,还得饱和式支持。 05:48 - 核聚变原理早就清楚,但我们不可能去用原子弹去引爆氢弹实现核聚变,必须从根本上改变实现方式,从惯性约束变成磁约束。 12:21 - 核聚变永远 50 年在当时是对的。现在也许不到10 年,在新的这阶段也有可能是对的。 19:42 - 实现核聚变,现在大家唯一信得过的就是做实验。不同国家、不同团队在不同装置上做不同实验,得到数据,最后做拟合,然后得出规律。虽然说不清什么道理,但是大家认为这是可信的,这个过程就跟训练 AI 有点像。 实现可控核聚变的不同路线和难点 21:32-更重视工程而不是基础科学研究,是推进核聚变发电的现实情况,也是正确的路线。 25:35 -什么样的路线、装置能实现核聚变,在市场上有竞争力,现在还没有共识。 31:11- 星环聚能选择球形托卡马克,最直接的原因是有路径依赖,已经研究 20 多年,对好处坏处都比较清楚。 37:19- 从原理来看,托卡马克就是一个变压器,不适合长时间稳态运行,现在大家做了各种辅助设备,强制变成了这样,做得非常累,非常难。 从头做一家核聚变创业公司的经历 42:36 - 此前的创业经历,让自己学会怎么去更投资人介绍自己的技术,为创办核聚变公司打下基础。 53:32 - 希望 2027 年建成下一代核聚变装置,实现 Q 值大于 10。信心来自核聚变领域的定标律,也就是 Sacling Laws(这本身是一个物理名词)。 56:12- 下一代装置要花 10 多亿元人民币,寻找资金是每天都在做的事情。 57:25-未来的不确定是,目标与现实之前缺少数据支撑,Sacling Laws 在这个阶段是一片空白。 01:06:23-创业后感觉自己潜力得到释放。过去两年的成果可能比过去二十年都多。 01:07:44-核聚变没道理实现不了,他们计划十年后让普通人用上核聚变发的电。 01:09:15-希望投资人胆子大一些,敢投跟美国公司不一样的技术路线。 相关阅读: 中国首批核聚变创业者谭熠:它总在你绝望时又给你希望|TECH TUESDAY https://mp.weixin.qq.com/s/5kk5oOLQB3noHlNpiG1dVQ 可控核聚变:离风投更近、离现实多远……还不好说丨TECH TUESDAYhttps://mp.weixin.qq.com/s/J2GBVZqS4bvadJrKOcMYdA 本期节目中出现装置、公司等名词: 托卡马克:由苏联科学家发明的核聚变装置,主要原理是借助强大的磁场压缩高温等离子体,首先核聚变,是目前核聚变发电的主流方案,强场托卡马克、球形托卡马克都是衍生路线。 等离子体:固体、液体、气体之外的第四种粒子,有点像带电的高温气体,实现核聚变的基础粒子。 磁约束:用强大的磁场压缩高温(1亿°以上)等离子体到特定空间,实现核聚变的路线。 JET:世界上建成的最大的托卡马克装置,核聚变记录的创造者,去年底实现 5.2 秒核聚变后关闭。 ITER:正在建造的巨大托卡马克装置,有十层楼高,全球多个国家投资 200 多亿美元,预计明年建成,2035 年运行。 Helion、CFS:两家美国核聚变创业公司。 登场人物: 谭熠,星环聚能创始人、首席科学家。 贺乾明,晚点科技作者。即刻:我是 chiming 剪辑:甜食
*头图:Lody 被遣返后,拿到的装有自己手机、询问记录的黄色档案袋。 本期《晚点聊》,我们邀请了一位字节前员工,曾在 TikTok 做出海业务的 Lody 分享他的一次极端经历。 2023 年 3 月,只背着一个双肩包、带着少数换洗衣物和文件,Lody 从巴西飞往美国开团队会议,入境地点是得州休斯顿。这本是一次短期出差,却改变了他的职业生涯。 在休斯顿机场,Lody 被美国边检部门带到“小黑屋”,经过数小时盘问后,他被告知将遭驱逐出境、签证注销,5 年内不能再申请美签。这还没完,为了等到下一趟回国的飞机,Lody 又莫名其妙地去了一次美国监狱,总共折腾了 5 天才被顺利遣返。这也使 Lody 面临新的职业选择,他多年来的积累在出海领域,后来不得不转岗到国内业务。 Lody 的经历是一个小概率事件,但也是今天越来越多出海人可能面临的风险。中国驻美大使谢锋今年春天曾在一个活动上分享,现在每月都会有数十名中方赴美人员被拒绝入境,包括留学生和学者等,他们都持合法有效签证,没有犯罪纪录。 这期节目,我们回顾了 Lody 去年在休斯顿机场的经历和此事的后续处理。Lody 的故事可能会给现在很多需要出海的国人一些小参考。 这个故事本身也很精彩,“小黑屋”和监狱是一个小剧场,汇聚了一群形形色色之人,有走私被查的南美青年,来度蜜月的情侣,同样被遣返的台湾同胞……这也是多年来,Lody 难得的完全没用手机和电脑的 120 小时,他停下来想了更多。 时间线传送: ·因和一位科学家同名、同生日,被请小黑屋,十小时后被告知签证取消 01:18 休斯顿入境,被美国海关和边境保护局(CBP)带进小黑屋 03:10 被要求交手机和密码 04:12 盘问手机里的聊天信息,CBP 很了解中国社交 App 06:30 不妙的入境时机:前有气象起球,后有周受资听证会 07:44 “你肯定不是团员,因为你已经超过了 28 岁” 08:42 仿佛一场小型听证会,问问题的边检人员都感到问题离谱 09:34 10+小时后,被告知将遭遣返,5 年内不能再申请美签 09:53 被请进小黑屋的原因,原来是一位 “crazy scientist”与我同名、同生日 ·危机升级,体验私人监狱三巨头 13:18 在小黑屋里,认识了很多“奇形怪状的人” 15:16 一对度蜜月的夫妇也被遣返,休斯顿机场容不下 P 人 15:43 被告知得去监狱做上飞机前的核酸,因为未入境人员不能去医院 17:03 本以为做完核酸就能走,被告知要在监狱里待两天 18:28 与十几个拉美难兄难弟排队等入监手续,差点没住上单人间 22:47 该监狱由监狱三巨头之一的 GEO 运营,市值超过 20 亿美元 24:38 监狱里的牙刷、牙膏、衣服都是 made in China 28:47 离开环形监狱,回到机场 29:20 回国,想升舱,想喝酒,都被空姐拒绝 ·后续影响:转岗国内,也看到工作不是唯一 31:52 影响其他地区出境,再没出过国 32:46 公司请律师帮助申请签证撤销豁免,但尚未有进展 34:47 活水转岗国内业务,无法再做热门出海方向 35:25 一些复盘 tips:尽量选蓝州(支持民主党)入境,避开大选等敏感期 36:39 高风险人群可带新手机入境 37:32 遇到盘问,不能撒谎,但也不用什么都说 40:52 蜜月夫妇和台湾人的案例——给 CBP 官员放你入境的理由,而不是相反 43:48 个人收获:多关心自己的生活、精神状态;同时看到世界上人和人之间没那么大区别 44:44 准备退休做非盈利项目,让外国看到中国的“奇怪之处”,也知道这些奇怪可以被理解 相关链接: 入境美国被遣返,强权系统五日记录 https://mp.weixin.qq.com/s/kuXsVJzL8gZs_4Ypf3pdvQ 本期人物: Lody,小红书 ID: 刘小眼 程曼祺,晚点科技报道负责人,即刻/小红书:曼祺_火柴Q 剪辑:甜食
汉洋和可达前一段在美国的锈带转了一圈。正好之后汉洋去湾区,就和硅谷 101 的泓君录制这期串台。在国内天天听人说因为美国去工业化导致工人失业,然后工人很愤怒选出了特朗普开启了贸易战,到底是这样吗? 本期节目我们聊到了: 【见闻】 03:43 锈带之旅:关于美国大选的刻板印象与反直觉认知 04:22 重新理解罗斯福新政:民主党的支持画像 11:05 三种不同衰退的命运:伯利恒钢铁厂、九号煤矿与阿特拉斯水泥厂 18:14 卡拉马祖火车站:从辉煌的物流中转中心到流浪汉中转站 21:13 美国废墟与城市的坍塌:当上世纪科技之光在匹兹堡郊外躺了 70 年 23:49 不被看见的 Hood 人群:工业离开后,难找到体面的工作 34:29 无解的逆全球化:俄亥俄州只修大疆的维修店 37:10 锈带的三类城市:正在衰落(巴尔的摩、日耳曼敦)、彻底衰落(嘉里)与复兴(伯利恒) 41:14 厕所判断安全性:为何超市堆两米高的货物不让人上厕所? 【历史】 44:24 日耳曼敦:随着宗教发展,靠手工业和地理位置兴起的工商业小镇 48:37 美国工业崛起:煤炭、石油与钢铁 51:55 去工业化:劳资冲突、技术落户、决策重大失误 56:38 大部分锈带工厂在关停的时候还在挣钱 58:00 「这些人真的存在」 相关图片: https://s2.loli.net/2024/07/09/bIfexTNoZtC8yRX.jpg 伯利恒钢铁厂的告示牌,by 汉洋,2024/05/30 https://s2.loli.net/2024/07/09/Yyktne4lP8wRJW7.jpg 匹兹堡郊区草地上废弃的范德格拉夫加速器,by 汉洋,2024/06/03 相关内容: 可达、重轻、小白免和汉洋后续关于美国锈带的详细内容会发布在山有虎。 (https://shanyouhu.xyz/) 《火线》(The Wire):是一部美国电视连续剧,于2002年到2008年在HBO频道播放。该剧共五季,讲述了巴尔的摩市的社会、政治、教育、犯罪和媒体等多方面的问题。这里是节目中提到的重轻在机核网的《火线》导读系列。 (https://www.gcores.com/radios/162745) 罗斯福新政联盟(Roosevelt's New Deal Coalition):是富兰克林·D·罗斯福在20世纪30年代建立的广泛政治联盟,支持其新政政策以应对大萧条。该联盟包括工人阶级、农业社区、城市居民(移民、少数族裔和非裔美国人)、知识分子和自由派人士,以及传统的南部白人民主党支持者。尽管这些群体在某些社会议题上存在分歧,但他们共同受益于新政的社会福利、工人权利、公共工程和农业补贴项目,帮助罗斯福赢得了1932年和1936年的总统选举,对美国政治产生了深远影响。 “美国三书”:三联和雅理共同推出的《钢的城:美国锈带兴衰史》《寻路:穿越分裂的国度》《无地可依:后工业时代芝加哥的家庭与阶级》。作者们或聚焦美国传统工业地区的经济社会转型,或全景展示全美各地不同立场、身份、文化的人们对于矛盾的感知及彼此沟通,在描摹美国社会矛盾的诸多细节,剖析美国困境的历史轨迹与结构性影响因素的基础上,试图寻找疗愈美国病症的良方。 《Code of the Street: Decency, Violence, and the Moral Life of the Inner City》:是社会学家艾略特·利伯(Elijah Anderson)撰写的一部重要著作,探讨了美国城市内城社区中的道德和社会规范,揭示了街头文化中的不成文规则和行为准则。书中特别探讨了“街道守则”(Code of the Street)这一概念,描述了在贫困和社会排斥的环境中,人们如何通过表现出“尊严”和“尊重”来维护自己的身份和社会地位。同时,书中也深入分析了内城社区中的暴力问题,以及这种暴力与街道文化之间的关联。 登场人物: 泓君:硅谷 101 创始人 (https://sv101.fireside.fm/),播客主理人 可达:一宿二宿程,千山万山月 汉洋:我就是溜达,欢迎订阅我的 newsletter (https://hanyang.wtf/) 封面:克利夫兰郊外的西屋电气工厂遗址 制作 AMEI 音乐 Branches (I Won't Let You Go)-Jordan Frye There Will Come Soft Rains-Katharine Petkovski
在中国红海竞争环境下,垂类电商曾被认为是一个悖论:相较于综合电商平台获客成本更高、供应链缺少优势时,难以保持低价,用户持续流失。聚美优品、蜜芽网、蘑菇街、寺库等最终的失败都是例子。 中国之外,垂类电商在别的市场有机会吗?泰国第一名的化妆品电商平台 Konvy 提供了一种答案。 创业第十年, Konvy 创始人黄清桂才拿到第一笔融资,此前十年他靠的是老同学投资、向银行借钱做生意,今年,他拿到了1100 万美元的 A+ 轮融资,投资方之一是阿里。 2012 年,北京中关村创业最热闹的时候,黄清桂也曾做过淘品牌,并做到了垂类第一,但这次创业让他负债百万,他决定要做更大的品类、更高毛利的生意,于是他回到了小时候上学待过的泰国,和 Lazada 几乎同时起步,在基本毫无电商基础设施的泰国,建起了一家年营收 6400 万美元的美妆电商平台,并开始走向线下开店。 本期播客中,黄清桂分享了他作为中国人在海外如何创业、管人、学泰语的经历,也分享了他作为最早一批出海东南亚的互联网创业者,在异国他乡踩过的坑,如果你正在关注东南亚创业机会,不妨进来听一听。 内容摘要: 02:15 2012年国内电商方兴未艾,热闹非凡的时候,为什么选择去泰国做电商? 10:32 我经历了中关村创业最热闹的时候,咖啡厅都不够用 24:14 缺电商基础设施,缺钱,我如何找到第一个百万投资 28:40 化妆品平台最难解决的问题之一,如何保证正品? 29:00 东南亚电商大战中,一家垂类电商平台如何存活、长大的? 48:00 在电商渠道占比只有 10-20%的泰国,如何做线下渠道? 59:17 在根本没人想卷的东南亚,如何帮助员工提效? 72:43 品牌如何做全球化策略? 登场人物: 黄清桂:Konvy 创始人,正在学泰语 陈晶,晚点 LatePost 作者,正在看出海(微信:tiema233) 剪辑:甜食 封面图:Konvy 在泰国线下开的店
生成式AI出现后,每一天我们都在见证更加逼真、丰富的内容出现,但我们往往忽略的是,承载这些内容的框子——手机、电脑等电子设备上的产品界面还和以前一样,设计师仍然需要堆十万个图层才能设计出一个界面,这背后是大量重复、低效的工作。AI今天已经可以创造出新内容的“酒”,怎么样让AI也能更高效地创造出装这些酒的“瓶子”? 我们请来了AI设计工具Motiff 的运营副总裁张昊然,他在项目前期访谈了上百位设计师,总结他们共同的痛苦,和团队一起设计了一个帮助设计师提效的AI工具。 本期节目我们聊到了: 为什么要做这款产品?选择一个看起来很小众的市场? 行业头部公司Figma已经做的很大,为什么Motiff 还有机会? 设计软件经历了怎样的迭代?微信团队是怎么做设计的? 设计师们都面临怎样的苦恼?Ai能够怎么样帮助设计师们解决这些问题? 从第一天就想好了一个全球化产品,在国内和国外卖产品方式有什么不同? 未来我们真的还需要设计师吗?AI能否取代设计师这个工种? 今天AI使用的渗透率远低于大家想象,为什么? 相关链接: Motiff体验官网: www.motiff.cn 登场人物: 张昊然:从教育产品经理到AI工具运营 陈晶:随时可能被替代的文字工作者 剪辑:甜食 封面:Motiff新加坡发布会现场
本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。(原文见 shownotes 末尾链接)。 马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学。 在如今的 AI 领域,马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型,就可以实现通用人工智能,这就是大模型的 Scaling Laws,它被一些人视为“信仰”。 马毅则不相信这条路。他认为现在的深度学习网络本质上,都是在做压缩(compression):就是从图像、声音和语言等高维信号里,找到能表示数据间相关性和规律的低维结构。 GPT 表现出来的数学推理等能力,在马毅看来本质还是依靠记忆和统计,就像一个接受填鸭式教育的、高分低能的学生,它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是:能纠正自己现存知识的不足,而且能增加新的知识。 由此,马毅也完全不买账 AI 威胁论,他认为,说现在的 AI 危险的人,“要么是无知,要么是别有目的”。 为解释深度学习网络到底在做什么,马毅团队最近几年的重点工作是,白盒大模型,也就是用数学来解释深度学习网络的压缩过程,以找到更高效的压缩方式。 他也希望以此来对抗黑盒带来的误解,因为“历史上,任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管,导致垄断,遏制创新。 真理不一定掌握在少数人手中,但少数派和观点竞争的存在增加了发现真知的概率。 *访谈过程中涉及了一些论文、著作和术语,我们也标注在了 shownotes 里的附录部分。 时间线指引: -现有主流路线的局限 02:49 工业界更关注现有方法提效,而白盒模型刚提出时的工程验证有限。 05:08 现在的大模型是通过经验找到了一些有效的方法,但它引起的量变不是真正的智能。 08:29 现有方法其实只模拟了记忆的局部功能,资源消耗大GPT 类模型仍“高分低能”。 13:26 当整个community 都认可一两件事,可能忽略掉其他可能更重要的事,曾经的深度学习就是一个例子。 15:45 如果你作为年轻人,相信只靠 Scaling Laws 就可以实现 AGI,你可以转行了。(这部分提及的文章是附录里的 wide eyes shut) 18:44 因为研究不要怕特立独行:当年在微软亚研院招何恺明等员工,都会让大家想:你做的哪些事别人做不了? -智能的原则:简约与自洽;达到智能的可能路径:白盒、闭环、自主 21:19 2017 年回到伯克利后,开始梳理已有成果:现有深度网络都是在做“压缩”(compression)。 23:18 白盒大模型是给这个压缩过程找到数学解释。 24:52 科学史上的好想法总会被翻新。 26:11 知道了压缩到数学原理,能帮助找到更高效的压缩方式。 26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约,后半句对应自洽。 29:39 为什么智能会出现?——世界上有值得学、能学到的规律。 32:47 知识不等于智能,GPT-4 有更多知识,婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。 37:13 达到智能,除了从黑盒到白盒,还有从开环到闭环,从人工到自主。 40:48 自主学习的含义之一是,人的学习是在大脑内部建模完成的,不需要真去对比外部物理信号,生物没有这个选项。 46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。 -验证推演 & 白盒对黑盒的祛魅 48:41 ReduNet 是一个框架,但工程实现还不够;CRATE 做了工程优化。 55:32 历史上任何有用的黑盒都可能变成巫术。 57:03 有人说 AI 是原子弹,我们看很可笑。 57:33 政府应该监管技术的应用,而不是技术本身。 59:07 从去年开始,更迫切感到要让更多人知道现在的 AI 在作什么,AI 没这么可怕。 60:16 白盒更实际的作用:减少试错成本、GPU 成本。 -对智能历史的梳理 01:05:04 为何机器智能的结构会类似生物智能?——尚未看到更高效地方法。 01:07:13 从维纳的《控制论》开始,第一批研究智能的选择并没有区分机器与生物。 01:09:58 闭环系统的好处,解决“灾难性以往”问题。 01:13:13 对(人工)智能的研究并非始于1956年。 01:15:26 深度网络的两次危机都与缺乏数学解释有关,但现在可能不会再发生。 01:17:23 从生物学和神经科学中学习,猴子大脑机制与智能研究发现的相似性。 01:20:36 真正的智能应具备自主学习和自我纠错的能力。 -创业 & 教育 01:24:14 学校做验证,公司做放大,希望证明白盒路线的可行。 01:29:09 要么有量变,用白盒显著降低训练资源or提升训练效率;要么有质变,探索闭环、自主的可能性。 01:38:53 业界其他的非主流路线探索:LeCun 的 JEPA,李飞飞新创业等。 01:41:21 港大正在推动 AI literacy 课程,所有专业都学,AI 应成为通识教育的一部分。 01:48:39 达特茅斯会议为什么在智能前面加上 artificial?——也是追求和前辈不一样,想探索人类高级智能。 01:52:20 科学竞争最关键的就是人,重要的是把资源分配给正确的人。 相关链接: 对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了” https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ 【视频】马毅教授谈神经网络,《简约和自洽》:神经网络从黑盒到白盒,学习模型从开环到闭环 (听完播客还有兴趣了解跟多的话,非常推荐这个视频,有图解、有现场,深入简出) https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464 忆生科技Engram正在招募优秀人才,简历请投递:recruit@transcengram.com 访谈中提到的论文: Scaling White-Box Transformers for Vision, 2024/5 https://arxiv.org/abs/2405.20299 Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4 https://arxiv.org/abs/2401.06209 White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11 https://arxiv.org/abs/2311.13110 Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10 https://arxiv.org/abs/2210.16782 本期人物: 马毅,香港大学计算机系主任 程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q) 剪辑:甜食 附录:访谈中提到的技术术语、概念和人物 维纳:在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是:under control and communication in animals and machine(“或关于在动物和机器中控制和通信的科学”) 香农:在 1940 年代前后提出信息论 Yann LeCun,图灵奖获得者、Meta 首席科学家 李飞飞,知名 AI 研究者,斯坦福大学教授 何恺明,知名 AI 研究者,ResNet 作者 1956 年达特茅斯会议:提出了人工智能(Artificial Intelligence)这一概念的会议 ReduNet,马毅团队 2022 年发布的白盒大模型理论框架 CRATE,马毅团队 2023 年提出的更新的白盒大模型 JEPA,Yann LeCun 团队提出的一种世界模型架构
封面:米可世界中东团队合影。 前不久,我接受米可世界的邀请和一些媒体朋友一起去了迪拜、沙特和埃及,了解中国企业的中东出海。 本期《晚点聊》就邀请到了米可世界的中东项目负责人 Emily。 2018 年,毕业复旦数学系、在上海工作的 Emily 48 小时内决定去中东创业,买了一张机票落地埃及后开始做语音社交产品,之后她又加入赤子城旗下的全球线上社交娱乐公司米可世界,负责语音社交产品 YoHo 等项目在中东的运营。 5、6 年里,米可世界的中东团队从一个会议室就能坐下的几十人发展成到了超 300 人,覆盖海湾、北非和部分南欧市场,运营着 MICO、YoHo、TopTop 和 Sugo 四个产品,过去一年收入超过 10 亿元人民币。 Emily 分享了很多中东创业的故事:最开始吃不惯阿拉伯食物,一天只吃一顿饭;沙特国庆时被也门大户写小作文指责,越来越了解中东各国间的微妙差别和对应的运营策略;在疫情时与同事一起应对行业危机。 Emily 在埃及的 6 年已经超过了 2000 天,可以开始听第三个一千零一夜了。这本古老的书暗合中东文化的一个特点:爱聊天,爱讲述。这是语音等各类社交产品在那里外受欢迎的原因。 绵延西亚、阿拉伯半岛和北非、有 4 亿人口的阿拉伯世是一个有众多国家和民族交错的复杂市场。不沉下来做本地化很难了解各中生存策略。Emily 的一手体验里就有在中东淘金的线索。 内容摘要: ·落地埃及:创业、加入米可,运营 YoHo 01:13 2018 年初打算投资中东的社交语音 App,后来自己创业,不到 48 小时决定来埃及。 03:30 2019 年加入米可,负责运营 YoHo,认定中东社交是大市场。 07:00 中东市场的优点:人口多,文化相似,当时的竞争相对少;难点:文化差异、互联网人才较少,细分度超出想象。 09:30 为何加入米可?——专注海外、重仓中东,中东市场需要很重的本地化。 13:01 什么团队配置适合出海:米可的组合是腾讯、微博(互联网)+华为、中兴(海外) 15:05 语音社交的产品形态?中东用户怎么用它? 17:23 在埃及理解了为何需要和陌生人聊天;生日收到平台用户 3000 美元的打赏。 19:45 国内和中东语音产品的区别:国内更偏内容,中东更偏社交。 25:04 王子飞机游艇轮番秀在中东也很罕见,但这里的一般工薪层更愿意花钱娱乐。 ·深入本地化:细分市场的门道 27:29 中东“土豪”人没大家想象多,赚他们的钱也没那么容易。 28:30 中东多国间的差异化运营,沙特国庆时,被也门用户吐槽的故事。 30:15 TopTop 很长时间里的第一大户是巴林人,中东任何小国家都可能有大客户。 35:23 怎么看 TikTok 加码中东? 37:10 米可的多产品运营策略。 41:20 米可现在是多 App 的“灌木丛”策略,但同时在看大 App 的机会。 ·出海建议 44:57 中东这两年热起来,热门中国电影也在考虑来中东。 47:11 出海落总部,阿联酋、沙特、埃及等怎么选? 48:40 用人之道:从招有更多经验的人变成招和培养年轻人。 52:08 没有在埃及职场观察到“躺平文学” 53:40 怎么在日常管理团队时融入本地文化。 54:40 通过更高质量的决策挺过 2020 年的政策危机。 62:43 对出海公司的建议:最重要的是选好当地负责人和合作伙伴。 64:49 中东本地 VC 不发达,在中东的初创中国企业尽量拿国内的钱,如 Yalla。 67:43 个人成长:真正体验了商业实操、管理实操,理解了“无所畏惧”。 74:46 对追求极致的数学解释。 相关链接: 海湾淘金:中国公司奔赴另一场招商引资 https://mp.weixin.qq.com/s/IK2JuQJSbNlbL-lr95-gHQ (我问米可想贴什么链接让大家了解公司,他们很直接,上招聘链接:😀) 米可世界招聘官网 https://micoworld.jobs.feishu.cn/index 登场人物: Emily,米可世界中东运营负责人,负责 YoHo 等产品 程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺 火柴Q) 剪辑:甜食
本期节目请到了《日常的深处》作者王小伟来聊聊为啥大家都活着不舒服。朋友你可能最近已经在不少节目里听过小伟了,但要相信汉洋能和他聊点不一样的,毕竟汉洋活着是这不舒服。 本期节目我们聊到了: 感觉今天好像每个人都活着不舒服,是吗? 说这么多有啥用呢? 为什么要批判日常消费生活? 现代化是不是来得太快了,还没给我们足够的时间准备 互联网实现了它的承诺吗? 你开心就好,真的能好吗?只要你努力就会更好,真的能更好吗? 日常生活是怎么没的? 到底应该怎么办? 我们的社会是不是一定会变成现在这样? 情绪价值是价值吗? 相关链接: 日常的深处 (https://book.douban.com/subject/36622125/) 早上挤地铁,中午叫外卖,晚上刷手机,打工人如鲠在喉的一天|王小伟 一席第1052位讲者 (https://mp.weixin.qq.com/s/VjWwgzvzkQuzDAhK1o5X-A) 西二旗的杨枝甘露 (https://hanyang.wtf/p/e98) 登场人物: 王小伟:大学教师,《日常的深处》作者 汉洋:现在是黄毛版(其实是银色) 剪辑:甜食 封面:汉洋在柏林的随手拍
本期节目汉洋和嘉宾余馆在画廊里聊了聊美术馆这件事。可能你看过很多展,但估计和汉洋一样,不知道这到底是个什么事儿?看不懂怎么办?官方到底烦不烦「打卡」?新艺术家要怎么办展?策展人到底在做什么? 本期节目我们聊到了: 从煤炭码头到美术馆 美术馆「看不懂」到底该怎么看? 做美术馆赚钱么?或者说维持美术馆正常运行的经费来源是什么? 什么人是美术馆的主要客流? 美术馆的运行模式,以及美术馆和艺术家之间的关系,国内外是否有不同。 美术馆除了办展览,还承担了哪些功能? 一个展览是否如看上去那样(以一定的主题展陈一定数量的展品)这么简单?办一个展览,不同参与角色(美术馆、策展人、艺术家、或者其他参与方)的目的是什么? 一个展览大概流程是什么?有什么琐碎的工作要去做? 一个展览闭幕以后,展品哪去了?为什么有的作品需要销毁? 数字艺术流行的时代,为什么还要来美术馆看呢? 如果一个没有名气艺术家想办一场个展,或者说他可以策划一个群展,那么他应该如何去做? 你们会帮新艺术家的项目找赞助吗? 怎么看待在美术馆里打卡这件事? 相关链接: 艺仓美术馆的官方播客是:《艺术范儿》 (https://www.xiaoyuzhoufm.com/podcast/645787ac306513184c4a0083) 艺仓美术馆 (http://www.mamsh.org/) [微信公众号:艺仓美术馆 MAM]((https://mp.weixin.qq.com/s/1M4rJUhEKgnuXl6FFn_rKQ) 【当前展览】 “繁衍生息”/“行于暗” 【展览信息】 见“外”知“内”,3月23日艺仓两展同开 (https://mp.weixin.qq.com/s/pnjJ1LFr0u52SN3FkNZcxw) http://www.mamsh.org/wp-content/uploads/2024/04/WechatIMG24-scaled.jpg http://www.mamsh.org/wp-content/uploads/2024/04/WechatIMG23-scaled.jpg 登场人物: 余光照:艺仓美术馆馆长 汉洋:不会拍照 后期:甜食 封面:艺仓美术馆
*本期音频来自访谈素材,建议大家如有条件可用耳机收听,效果比外放更好。 今年 3 月中旬,《晚点聊》在北京访谈了经济学家朱宁,聊了聊在不确定性的世界,如何做投资,怎样看待中国经济。 朱宁是中国少有的将国内和国际视野、学术研究和业界经历结合得比较好的经济学家,为人亲切、说话坦诚。在访谈中,他慷慨地分享自己的观点和见闻,甚至包括个人投资组合和犯过的投资错误。 其中一个错误是他在 2008 年加入了雷曼兄弟。那时,他刚拿到加州大学戴维斯分校的终身金融教授职位,离博士毕业仅有五年,意气风发。“严重过度自信”的他本来有五个选择,但最后选择了 “最不应该的” 雷曼。 2010 年,在内地 “蓬勃向上” 的氛围吸引下,朱宁重返学术界,参与了上海交通大学上海高级金融学院的创立。2016 年,朱宁怀抱着“经济学要经世济民” 的理想情怀,来到清华大学,更多地参与到政策制定中。现在,他在上交、清华和耶鲁都有学术职位,但在考虑转向业界。 2010 年回国后,朱宁呈现出两种形象。一种是行为金融学在中国的倡导者。他通过研究投资者行为和心理,揭示出人的非理性,称 “投资者最大的敌人就是他们自己”。 另一形象是中国经济金融领域存在泡沫的警示者。对于 “购房是刚需” 的观点,他批驳了十年,提醒投资者房地产行业存在泡沫。他也曾在 2015 年股市震荡发生前多次警示投资者,称 “崩盘总比预期来得早”。他在 2016 年出版的著作《刚性泡沫》(China's Guaranteed Bubble)中,则警示了中国经济由于存在刚性兑付和隐性担保,亟需化解资产泡沫和系统性风险。 今年 1 月,《刚性泡沫》出了增订版。朱宁在书中称,过去几年发生的一些重大事件都在 “本书上一版中有所预见和讨论”。例如 2015 年的股市震荡,2016 年的棚户区改造货币化安置,2018 年的资管新规和科创板的推出,2020 年的三条红线和共同富裕,2021 年的房地产企业爆雷,2022 年的新房交付困难和购房者断供。 看到现实一定程度应验自己的理论,朱宁心情复杂。“我希望我是错的,我一直是这个心态,这两年更是如此。” 他觉得虽然已经有了很多进步,但要真正化解泡沫和风险还有很长的路要走。 本期节目我们聊了: 03:33-这几年,有哪些与投资相关的重要叙事变化? 10:00-很多人觉得自己和巴菲特的差距非常小。 16:35-房地产的黄金时代已过,如果大家有多套房,应该考虑多元化配置。 33:51-看好黄金和美债,仍质疑比特币。 42:00-如果一个市场不能给投资者长期创造价值,投资者一定不会愿意在这个市场投资。 58:33-政府要建立好社会的安全垫,个人努力提高自身人力资本。 相关阅读: 本期《晚点聊》对应的文字报道:《9 年前提醒泡沫风险的经济学家,给普通人的多元化投资建议》 https://mp.weixin.qq.com/s/7RlRST0lYh5TyQVplrXxbQ 朱宁的著作《刚性泡沫》《投资者的朋友》《投资者的敌人》。 乔治·阿克洛夫和罗伯特·席勒合著的《动物精神》《钓愚》。 理查德·塞勒的著作《“错误” 的行为》。 本期出现的人物和简称: “高金”,上海交通大学上海高级金融学院的简称。 “道口”,清华大学五道口金融学院的简称。 罗伯特·席勒(Robert J. Shiller),诺贝尔经济学奖得主、耶鲁大学教授,也是朱宁的导师。 林毅夫,北京大学新结构经济学研究院院长、教授。 高善文,国投证券首席经济学家。 陆挺,野村证券中国首席经济学家。 孟晓苏,国家房改课题组原组长、中房集团原董事长,现为汇力基金董事长。 邵宇,东方证券原首席经济学家,现为复旦大学泛海国际金融学院金融学特聘实践教授。 登场人物: 朱宁,经济学家,上海交通大学上海高级金融学院副院长,清华大学国家金融研究院副院长,耶鲁大学国际金融中心教授研究员。 曾梦龙,晚点特稿组作者。 龚方毅,“晚点财经”主编。 剪辑:甜食
汉洋对于头发的问题可太多了。每次摘下眼镜理发再戴上眼镜简直就是赌博。所以这次索性请了一位美发店的老板来聊聊美发这个行业,从理发师的成长路径再到各种消费者会遇到的常见问题。 本期节目是汉洋染头的时候录制的,所以有一些(故意的)底噪。 本期节目我们聊到了: 一般发型师职业路径是啥样的? 早年南北方造型师的区别是? 当我和发型师说「选个您感觉合适的」时候,发型师是怎判断的? 如何找到自己合适的发型? 该怎么更好的和自己的发型师描述自己的需求?感觉每次理发都是一次赌博。 造型和美发的区别 日常如何打理? 正常理发选择哪一档的价位?我总觉得中间档是给我预备的一个坑,不想剪最便宜的怕万一真剪不好,也不想剪最贵的觉得没必要,理发店是不是也出于消费者的这种心理设定了三档价位,让消费者看似有选择但是正中圈套。 我为什么吹不出理发店里吹出来的发型? 在你眼中什么是一个好的造型师? 开理发店最难的地方是什么? 正月里剪头的人会明显更少吗? 好像理发店这个行业它跟奶茶和餐厅非常不一样,就是到今天你也很少看到那种全国的特别大的连锁,当然有一些连锁了,不过主要是地区性的,为什么会是这样呢? 互联网对你们这个行业有什么改变吗?尤其是有了互联网之后,比如说像小红书、美团对他们是一些什么样的变化了? 你们讨厌被叫 Tony 老师吗? 为什么烫发那么贵?基本上一线城市都一两千起了。 贵的烫发药水/染发原料和便宜的区别到底有多大? 为什么烫发上杠子的时候和染发配颜色和涂颜色不是老师亲自做? 为什么店里洗的头发不容易油,是有专门理发店洗发水嘛? 有什么一般顾客不知道,但发型师都认为是常识的事情吗? 我们作为普通人,应该学习这方面的那些知识呢?各种流行词到底是概念还是真有货? 相关链接: 宝哥的店大象造型 (https://m.dianping.com/shopshare/kaLE07fIQH1FSFcD?msource=Appshare2021&utm_source=shop_share&shoptype=50&shopcategoryid=157&isoversea=0&shareid=9Y8302e1tR_1712763227) 宝哥的小红书 (https://www.xiaohongshu.com/user/profile/5acb73f84eacab3299a3d4fb?xhsshare=WeixinSession&appuid=5acb73f84eacab3299a3d4fb&apptime=1712754048) 晚点聊之前谈验光的节目 (https://podcast.latepost.com/35) 汉洋有个口误,Parsons 在纽约不在伦敦 登场人物: 宝哥:大象造型主理人 汉洋:我不想赌了 剪辑:甜食 题图:正在漂发过程中的汉洋
本期《晚点聊》邀请了在去年底就已造出人形机器人的公司,逐际动力的联合创始人谌骅。 (*节目中涉及的术语可见 Shownotes 末尾的附录解释。) https://img2.imgtp.com/2024/04/02/J7JOMAeL.jpg 图:逐际动力人形机器人 CL-1 谌骅于 2012 年获浙江大学控制科学与工程学院自动化专业学士学位及竺可桢学院荣誉学位,在 2018 年获美国俄亥俄州立大学电气与计算机工程博士学位,后在本校进行博士后研究,2019 年 6 月回国。 2022 年,谌骅与他的博士生导师、知名机器人学者张巍一起创办了逐际动力。 今年刚刚过去的三个月,我们已看到了这个领域的诸多新进展: Figure AI 获 OpenAI、微软、英伟达、贝佐斯 6.75 亿美元投资,接入 OpenAI 大模型;英伟达在 GTC 大会上发布机器人基础平台 GR00T,黄仁勋还与科幻动画片主角“机器人瓦力”的实物版同台;特斯拉 Optimus 新释放 demo;做机器人大脑的 PI 获得 OpenAI、红杉等的投资。 与真实物理世界的交互是语言之外的重要学习与智能进化方式,有“身体”的智能也能大大拓展了 AI 的任务范畴。 https://img2.imgtp.com/2024/04/02/10gvlyt2.jpg 图:逐际动力四轮足机器人 W1(左),逐际动力点式双足机器人 P1(右) 本期节目,从 GTC 等近期行业热点切入,谌骅分享了他博士以来亲历的技术进展和创业历程、目前人形机器人技术栈的瓶颈;我们也对比了中美人形机器人创业的诸多差异。 他认为,GPT 大大加速了机器人大脑的发展,“小脑部分”也就是勾连大脑决策到最后身体执行的部分仍有很多突破空间,这也是最让人兴奋之处。 内容摘要: · GTC 与近期进展:看好机器人,但黄仁勋与 Transformer 八子对话又没聊机器人 01:20 小脑能力已经赶不上大脑,更关注小脑 05:12 FigureAI 和 Aloha 背后的新技术:Diffusion Policy,扩散模型用于生成机器人动作 06:44 Diffusion Policy 和 Diffusion 模型之间的关系 09:04 重要提升在于泛化性:机器人可以像人那样洗盘子了,不需要盘子摆放精确 09:47 为何 GTC 黄仁勋与 Transformer 八子论坛完全没聊到机器人? · 求学与创业:当软件与硬件 meet,机会信号出现 12:56 2016-2017 年读博期间,波士顿动力 demo 表现好,与他们的科学家交流,发现方法很相似 14:29 波士顿动力展现的是「足式运动能力」,它和「操作能力」是两条线 15:00 足式运动能力在控制上为什么难?——一个「欠驱动」系统 18:08 足式运动能力,抽象一下就是谌骅博士研究的课题:混杂系统的最优控制 20:08 MIT 开源硬件方案是对行业的重要推动 21:26 MIT 使用了原本用于其它领域的行星减速器,也从理论上做了解释 24:10 大公司 VS 小公司,一个没有完全 ready 的方向,更看中探索的灵活性 26:30 逐际做了 3 个产品,为什么做这么多? · 市场观察:人形机器人为什么在中国先火?AGI 信仰充值带来了什么? 27:43 去年中国为什么多了这么多人形机器人?——马斯克效应 29:50 走得像人能体现技术能力,但这也许没那么重要 31:43 逐际的四轮足机器人和点式双足机器人:用在哪儿?干什么? 34:29 点式双足机器人的更强运动和平衡能力——来自这两年强化学习在机器人控制中的运用。 35:00 这和 Transformer 没有直接关系,但整个领域的信仰充值让大家意识到用数据驱动方法做控制是可行的。 36:43 为什么中国做人形机器人的公司看起来比美国公司“更不聚焦”? 40:53 为什么大模型是美国先火,人形机器人是中国先火? 42:45 波士顿动力居然有 30 多岁了!它仍在用液压驱动,几乎不可能产品化 45:19 一个现象:起步太早的科技公司,可能因在老技术栈上积累太深,采纳新技术更慢 47:10 这一次,这件事不会再发生了吗?为什么? 48:54 更确定的事:人形机器人方向;发展不及预期的事:硬件 52:26 机器人的数据也是和硬件耦合的:比如触觉该如何表达?这受限于传感器 54:56 机器人端侧算力,英伟达 Jetston 又先人一步 57:23 人形机器人是交叉学科,兼具软硬能力的人可能会成为主导 59:25 对机器人“叛变”人类谨慎乐观 相关链接: B站-逐际动力首次公开人形机器人CL-1动态测试(2023.12) https://www.bilibili.com/video/BV1fc411r7bC/?spmidfrom=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1 基于强化学习,逐际动力双足机器人P1野外徒步 https://www.bilibili.com/video/BV1bw4m1d7Yq/?spmidfrom=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1 逐际动力发布首款四轮足机器人 https://www.bilibili.com/video/BV1XF411m77a/?spmidfrom=333.999.0.0&vd_source=cf48783bb6fd0cb15643d40c5b7b7fb1 晚点聊 ep 40-通用机器人,AI 的下一个浪潮? https://www.xiaoyuzhoufm.com/episode/64c239d70f7b199a693a55fa Diffusion Policy 论文 https://diffusion-policy.cs.columbia.edu/ 附录:节目中出现的技术、公司等名词 逐际动力:一家通用机器人研发和制造商,产品包括人形机器人、四轮足机器人及相关软硬件和AI解决方案。 ·FigureAI:2022 年成立的美国人形机器人公司,近期获得 OpenAI、微软、英伟达、亚马逊创始人贝佐斯共计 6.75 亿美元的融资。 ·PI(Physical Intelligence):今年新成立的机器人大脑创业公司,获红杉、OpenAI 投资。 ·Mobile Aloha:斯坦福大学服务机器人项目,展示过开窗、浇花、收拾垃圾等能力。 ·波士顿动力 Atlas:波士顿动力的一款人形机器人。 ·Diffusion Policy:一种基于扩散模型的机器人动作生成策略。 ·自由度:系统、模型或物理实体在运动或变化过程中可以变化或被独立控制的参数数量;在机器人领域常说的“某个关节有几个自由度”,就是指关节在运动时可被独立控制的方向和角度的数量,它决定了机器人的动作范围和灵活性。 ·欠驱动系统:系统的控制输入数量少于系统自由度的数量,导致系统不能完全控制所有自由度的状态。 ·混杂系统:包含连续和离散动态的系统,它们在同一系统内同时存在并相互作用,增加了系统的复杂性。 ·连续状态:系统的状态可以在一定范围内无限取值,变化是连续不断的,没有跳跃或间隔。 ·离散状态:系统的状态只能取特定的、分离的值,变化是阶段性的,不连续。 登场人物: 谌骅,逐际动力联合创始人 程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q) 剪辑:甜食
年初至今,很多人可能都刷到过跳洗澡舞的奶牛猫和大金毛,从 B 站、小红书到 TikTok,它们一路从中国火到了海外。 https://img2.imgtp.com/2024/03/27/fdVgWjK8.png 让小猫舞起来的应用是阿里巴巴通义千问 App 中的“全民舞王”功能,其背后的技术是阿里通义实验室 XR 实验室开发的 Animate Anyone。 通义实验室 XR 实验室的多模态成果还有可一键换装的 Outfit Anyone,和今年 2 月底刚发布的肖像视频生成框架 EMO(Emote Potrait Alive),它可以用一段语音作为单一控制条件,驱动任何肖像类照片动起来,比如让蒙娜丽莎诗朗诵,让 Sora 女主角开口说话。 https://img2.imgtp.com/2024/03/27/3esGtY2v.png *节目中涉及的术语可见 Shownotes 末尾的附录解释。 (视频链接见 shownotes 末尾) 本期节目我们就邀请到了这一系列多模态成果的研发 leader,阿里通义实验室科学家(XR 实验室负责人)薄列峰,来分享他在人工智能多模态领域的实践与观察。 薄列峰于 2007 年获得西安电子科技大学电气工程博士学位,后在芝加哥大学和华盛顿大学从事博士后研究。 在加入阿里前,他先后担任了英特尔资深研究员,亚马逊无人超市 Amazon Go 首席应用科学家和京东数科 AI 实验室首席科学家。 薄列峰的学术和工业界经历刚好横跨深度学习崛起前后,并涉足多个领域,包括计算机视觉、自然语言和 AI 与硬件的结合。 本期节目我们从 OpenAI Sora 对多模态行业的影响出发,聊到了阿里自己的实践,技术与产品的结合——Animate Anyone 支持的“全民舞王”是一个AIGC(生成式人工智能)应用引发 meme 传播的的例子;还有薄列峰对多模态未来趋势,包括更长期的世界模型的技术设想。 内容摘要: · Sora 和多模态行业进展 01:50 典型的多模态包括文生图、文生视频等;XR 实验室研究范围:解决数字人等问题。 03:19 多模态有较长的发展脉络,从 GAN 到 Diffusion Model 再到如今的 Sora。 06:35 Sora 的冲击:恐惧无益,视频生成尚未完全解决,世界模型仍有探索空间。 08:04 世界模型的定义和实现方法尚未达成共识。 09:09 Sora 带来了挑战与冲击,创业公司的机会。 10:51 面对 Sora,大厂的数据优势是否仍存在? · XR 实验室的多模态探索 12:40 多模态模仿人类智能和能力,是自然而重要的发展方向。 14:00 阿里多模态研究脉络:数字资产生产+技能;技能涵盖表情、动作和交互等。 18:26 EMO 通过单一语音控制生成视频,无需动作序列。 20:40 Talking head 之前也有人做,新方法的区别在于使用了大模型。 21:32 大模型带来的变化:EMO 是 zero shot,生成过程简单、轻量;同时效果更生动、复杂,适应性更强。 · 技术与产品的协同进步 24:10 Animate Anyone 用到通义千问 app 中是技术研发和应用的交集。 26:28 用户带来的启发:让宠物跳舞比让人跳舞更受欢迎,因为宠物只能通过技术来跳舞。 27:10 上传狗的人比猫的人更多,因为原初模型更容易识别狗,近期已做了优化,提升了对猫狗的接受率。 27:56 免费提供 AIGC 功能的成本考量?现阶段更重视用户参与和反馈。 29:15 为何分精力做产品优化?——现阶段的产品优化实质是模型能力的优化。 · 过往的跨领域经历和技术观察 32:58 07年前后关于深度学习的玩笑:“深度学习效果比其它方法高了一个点,但多了很多参数。” 33:42 深度学习首先在语音识别任务上取得突破。 34:45 在亚马逊 Amazon Go 解决实际视觉问题的经历。 36:30 跨学科经历的启发?——实践中积累的正确理解至关重要。 38:20 为什么物理世界的 AI 进化更慢?——硬件在过去甚至未来都是大瓶颈。 42:10 多模态大趋势里的变量?——世界模型的实现。 43:12 世界模型应该能模拟因果,而非仅表达统计关系。实现方式仍不确定。 44:37 世界模型是否需 3D 化?尚不确定。 46:24 世界模型应输入哪些数据? 48:32 有了世界模型后,人们可以用它做什么? 相关阅读: EMO 项目网站(可查看视频 demo) (https://humanaigc.github.io/emote-portrait-alive/) Animate Anyone 项目网站(可查看视频 demo) (https://humanaigc.github.io/animate-anyone/) 附录:节目中出现的技术、公司等名词: ·GAN(生成对抗网络):一种通过对抗训练生成数据的深度学习模型。 ·Diffusion Model(扩散模型):目前主流的图片生成模型,它是模拟数据扩散过程的高质量图像生成模型。 ·CLIP:OpenAI 发布的理解图像与文本关系的多模态 AI 模型。 ·Pika、Runway:两家视屏生成模型创业公司。 ·世界模型:模拟现实世界复杂系统的智能模型。 ·Prompt:引导 AI 模型生成特定输出的文本或其它输入。 ·zero shot:指模型无需针对特定任务训练特定样本也可完成该任务的能力。 ·动作序列:按顺序排列的一系列动作,通过定义一系列动作和它们的执行顺序,可以创建出流畅且连贯的动态表现。 登场人物: 薄列峰,阿里通义实验室科学家 程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q) 剪辑:甜食
汉洋前两天写了一篇关于跳海的文章,作为配套他邀请了跳海的创始人梁二狗和跳海的天使投资人(与璀璨钻石打酒师)Mable 聊了聊跳海,也聊了聊如何做一线城市年轻人的生意。 本期节目我们聊到了: 如果今天有人想在没有跳海的城市复制一个跳海,你会建议他做什么? 这一代一线城市的年轻人有什么特点? 如果跳海是个年轻人的生意,那年轻人还需要什么生意? 运用社交网络(比如小红书)对你们来说是个负担吗? 沟通中的共识建立 你会和那些骂你们贵的人吵架吗? 在你看来传统精酿圈问题出在哪? 跳海的发展理念和商业模式 北京这个城市特殊的地方在哪里? 相关链接: 不是谁都能在跳海当一名打酒师丨晚点周末 (https://mp.weixin.qq.com/s/KbamZ7MIv2qQjkutJRaqjA) 牌牌坐:ep.2 跳海酒馆:世界在下沉,我们要建造 (https://www.xiaoyuzhoufm.com/episode/63146f53e50e37575adb1cbe) Do Things that Don't Scale (https://paulgraham.com/ds.html) 探月学院 (https://moonshotacademy.cn/) ARPU: average revenue per user 登场人物: 二狗:跳海酒馆创始人 Mable:一个随波逐流的人 汉洋:爱喝酸啤 剪辑:甜食 封面由汉洋拍摄
loading