Discover
Seventy3
474 Episodes
Reverse
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Collaborative Document Editing with Multiple Users and AI AgentsSummary当前的人工智能写作支持工具主要面向个人设计,这使得协作变得复杂:共同作者需要离开共享写作空间以使用 AI,然后再沟通并重新整合结果。我们提出将 AI 代理直接集成到协同写作环境中。我们的原型通过两个新的共享对象——代理配置文件和任务——使 AI 的使用变得透明且可定制。代理的回应以熟悉的评论功能呈现。在一项用户研究中(N=30),14 个团队在一周时间内开展写作项目。交互日志和访谈显示,各团队将代理纳入其现有的作者身份、控制和协调规范之中,而不是将代理视为团队成员。代理配置文件被视为个人领地,而创建的代理和其产出则成为共享资源。我们讨论了面向团队的 AI 交互的相关启示,强调了在协同工作中将 AI 视为共享资源的机会和边界。原文链接:https://arxiv.org/abs/2509.11826
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Is In-Context Learning Learning?SummaryIn-context learning(ICL) 使某些自回归模型能够通过下一 token 预测来解决任务,而无需进一步训练。这导致了一个常见论断:这些模型能够在提示中仅通过少量示例(few-shot exemplars)就解决(学习)未见过的任务。然而,推理能力并不必然意味着学习,因为 ICL 并不会显式编码给定的观测数据;相反,模型依赖其已有的先验知识以及(若存在)提示中的示例。我们提出,从数学角度来看,ICL 的确构成一种学习方式,但其完整特征化仍需依赖实证研究。为此,我们开展了大规模 ICL 分析,通过消除或控制记忆效应、预训练影响、分布偏移、提示风格和措辞方式等因素进行系统实验。我们发现,ICL 是一种有效的学习范式,但在学习和泛化到未见任务方面具有明显局限性。值得注意的是,当示例数量趋于增多时,模型的准确率对示例分布、模型类型、提示风格以及输入的语言特征变得不敏感。相反,模型会从提示中的规律性中推断模式,这导致显著的分布敏感性,特别是在 chain-of-thought 等提示风格中尤为明显。鉴于模型在形式上类似的任务中表现出截然不同的准确率,我们得出结论:自回归模型的临时式(ad-hoc)编码机制并不稳健,并暗示其通用泛化能力有限。原文链接:https://arxiv.org/abs/2509.10414
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:K2-Think: A Parameter-Efficient Reasoning SystemSummaryK2-Think 是一个推理系统,在 32B 参数规模下实现了 SOTA 表现,达到或超过诸如 GPT-OSS 120B 和 DeepSeek v3.1 等更大模型的水平。基于 Qwen2.5 基座模型构建,我们的系统展示出:通过结合先进的后训练技术与测试阶段的计算优化,小型模型同样能够在高性能推理任务中竞争。这一方法基于六个关键技术支柱:长链路思维(Chain-of-thought)监督微调、可验证奖励的强化学习(RLVR)、推理前的代理式规划、测试时扩展(Test-time Scaling)、推测式解码(Speculative Decoding)、以及推理优化硬件,全部依托公开的开源数据集。K2-Think 在数学推理方面表现突出,在开源模型的公共基准上取得了 SOTA 成绩,同时在代码和科学等其他领域也表现强劲。我们的结果证实,像 K2-Think 32B 这样参数更高效的模型,能够通过包含长链路思维训练与战略性推理阶段增强的综合后训练方案,与最先进系统竞争,使开源推理系统更加易用且具成本效益。K2-Think 已免费开放获取,可通过 Cerebras Wafer-Scale Engine 实现每个请求超过 2,000 tokens/s 的顶级推理速度。原文链接:https://arxiv.org/abs/2509.07604
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging QueriesSummary工具调用已成为 AI 代理与现实世界交互并解决复杂任务的一项关键能力。尽管 Model Context Protocol(MCP)提供了一个强大的标准化工具集成框架,但在基准测试方面仍存在显著缺口:缺乏能够评估 AI 代理在真实、动态情境中利用多样 MCP 工具有效完成多步骤任务的能力衡量体系。在这项工作中,我们提出了 LiveMCP-101,一个包含 101 个经过精心筛选的真实世界查询的基准测试集。这些查询经过迭代的 LLM 重写与人工审查,要求协调使用多种 MCP 工具,包括网页搜索、文件操作、数学推理和数据分析。此外,我们引入了一种新的评估方法:利用真实执行计划而非原始 API 输出,以更好地反映真实环境不断变化的特性。实验表明,即使是最前沿的 LLM,其成功率也不足 60%,凸显了工具编排方面的重大挑战。详尽的消融实验与错误分析进一步揭示了不同的失败模式和 token 使用低效等问题,为提升现有模型的能力提供了具体方向。LiveMCP-101 为评估真实世界代理能力设定了严格标准,推动了朝向能够通过工具使用可靠执行复杂任务的自主 AI 系统的发展。原文链接:https://arxiv.org/abs/2508.15760
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Emergent Hierarchical Reasoning in LLMs through Reinforcement LearningSummary强化学习(Reinforcement Learning, RL)已被证明在提升大型语言模型(LLM)的复杂推理能力方面非常有效,但其成功背后的内在机制仍然大多不透明。我们的分析揭示,诸如“顿悟时刻”(aha moments)、“长度扩展”(length-scaling)以及熵动态等令人困惑的现象,并非彼此孤立,而是一个新兴推理层级结构的标志,类似于人类认知中高层次战略规划与低层次程序执行之间的分离。我们揭示了一个引人注目的两阶段动态:在初始阶段,模型受制于程序正确性,必须提升其低层技能;随后学习瓶颈发生决定性转移,性能提升主要由对高层战略规划的探索与掌握驱动。这一洞见暴露了现有 RL 算法(如 GRPO)中的核心低效性:它们以一种与层次无关的方式施加优化压力,使得学习信号在所有 token 间被稀释。为解决这一问题,我们提出了 Hierarchy-Aware Credit Assignment(HICRA),一种将优化努力集中在高影响力规划 token 上的算法。我们的大量实验证实了 HICRA 显著优于强基线方法,并通过战略性探索的视角,对推理能力如何进步提供了深刻洞察。原文链接:https://arxiv.org/abs/2509.03646
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:A Comprehensive Survey of Self-Evolving AI AgentsSummary大型语言模型的最新进展引发了人们对能够解决复杂现实任务的 AI 智能体的广泛兴趣。然而,大多数现有的智能体系统依赖于人工设计的配置,这些配置在部署后保持静态,限制了其在动态和不断演化的环境中进行适应的能力。为此,近期研究探索了智能体进化技术,旨在基于交互数据和环境反馈自动增强智能体系统。这一新兴方向为自进化 AI 智能体奠定了基础,它将基础模型的静态能力与终身智能体系统所需的持续适应能力结合起来。在本综述中,我们对现有的自进化智能体系统技术进行了全面审查。具体而言,我们首先提出了一个统一的概念框架,用于抽象自进化智能体系统设计背后的反馈循环。该框架强调四个关键组成部分:系统输入、智能体系统、环境和优化器,为理解和比较不同策略提供了基础。在此框架基础上,我们系统性地回顾了针对智能体系统不同组件的一系列自进化技术。我们还考察了为特定领域(如生物医学、编程和金融)开发的领域专属进化策略,这些策略的优化目标与领域约束紧密耦合。此外,我们对自进化智能体系统的评估、安全性和伦理考量进行了专门讨论,这些因素对于确保其有效性和可靠性至关重要。本综述旨在为研究人员和实践者提供对自进化 AI 智能体的系统性理解,为构建更加适应性强、自主化和持续进化的智能体系统奠定基础。原文链接:https://arxiv.org/abs/2508.07407
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Implicit Reasoning in Large Language Models: A Comprehensive SurveySummary大型语言模型(LLMs)已经在广泛任务上展现出强大的泛化能力。利用 LLMs 进行推理对于解决多步骤问题和复杂决策至关重要。为了支持高效推理,近期研究已从显式的思维链提示转向隐式推理,在隐式推理中,推理过程通过潜在结构在内部静默地发生,而不输出中间的文本步骤。隐式推理带来了诸多优势,包括更低的生成成本、更快的推理速度,以及与内部计算更好的对齐。尽管先前的综述已在推理背景下讨论过潜在表示,但尚缺乏对推理如何在 LLMs 内部展开的专门化、机制层面的系统考察。本综述通过引入一个以执行范式为核心的分类体系填补了这一空白,将关注点从表示形式转移到计算策略上。我们根据 内部计算如何以及在何处展开 将现有方法组织为三类执行范式:潜在优化、信号引导控制和层级循环执行。我们还回顾了支持 LLMs 中存在隐式推理的结构性、行为性和基于表示的证据。此外,我们提供了对现有工作中用于评估隐式推理的有效性与可靠性的评价指标和基准的系统性概述。我们在以下地址持续更新该项目:this https URL.原文链接:https://arxiv.org/abs/2509.02350
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Visual Story-Writing: Writing by Manipulating Visual Representations of StoriesSummary我们将“视觉化故事写作”定义为:利用故事要素的视觉表示来支持叙事文本的写作与修改。为展示这一方法,我们开发了一款文本编辑器,能够自动将实体之间的交互关系、实体在不同地点之间的移动,以及故事事件的时间线进行图形化呈现。与这些可视化内容进行交互会产生相应的文本编辑建议:例如,在图中连接两个角色会在文本中生成他们之间的一次互动;移动某个实体会更新其所描述的位置;重新排列时间线上的事件则会重组叙事的顺序。通过两项关于叙事文本编辑与写作的用户研究,我们发现,可视化方式在支持参与者进行高层次修订规划、跟踪故事要素以及探索故事变体方面具有显著作用,并且能够以促进创造力的方式发挥效果。总体而言,我们的工作为写作支持奠定了基础,这种支持不仅依赖文字,也同样依赖视觉形式。原文链接:https://arxiv.org/abs/2410.07486
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Universal Deep Research: Bring Your Own Model and StrategySummary深度研究工具是当今最具影响力、也最为常见的代理型系统之一。然而,我们观察到,迄今为止提出的每一种深度研究代理都被硬编码为执行某一种特定的研究策略,并且使用的是固定的一组工具。我们提出了通用深度研究(Universal Deep Research,UDR),这是一种通用型代理系统,可以封装在任何语言模型之上,使用户无需进行任何额外的训练或微调,就能够创建、编辑并不断完善完全自定义的深度研究策略。为展示该系统的通用性,我们为 UDR 配备了示例性的最小化、扩展型和高强度研究策略,并提供了一个用户界面,以便用户对系统进行实验和探索。原文链接:https://arxiv.org/abs/2509.00244
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Fhevm: A cross-chain protocol for confidential smart contractsSummaryZama 的 fhEVM 是一种跨链协议,利用全同态加密(Fully Homomorphic Encryption,FHE)在任何 L1 和 L2 上实现机密智能合约。它为链上应用提供端到端加密,在保证机密性与隐私性的同时,仍然保持完全的可组合性、可验证性以及无许可特性。fhEVM 通过协处理器来执行高开销的 FHE 计算,使用门限多方计算(threshold MPC)来保障解密密钥的安全,并配套一组可部署在 Rollup 或 L1 上的智能合约,用于协调和编排各个不同的系统组件。原文链接:https://github.com/zama-ai/fhevm/blob/main/fhevm-whitepaper.pdf
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:From AI for Science to Agentic Science: A Survey on Autonomous Scientific DiscoverySummary人工智能(AI)正在重塑科学发现的方式,其角色正从专用的计算工具演进为自主的科研合作伙伴。我们将 Agentic Science(具身智能科学/代理型科学) 定位为“科学中的人工智能(AI for Science)”这一更大范式中的关键发展阶段,在这一阶段,AI 系统从部分辅助逐步走向具备完整科学主体性的自主体。得益于大语言模型(LLMs)、多模态系统以及集成化科研平台,代理型 AI 已展现出在假设生成、实验设计、实验执行、结果分析以及迭代优化等方面的能力——这些行为过去被普遍认为是人类科学家的独有特征。本文综述以领域为导向,系统回顾了生命科学、化学、材料科学和物理学中自主科学发现的研究进展。我们通过一个综合性框架,统一了此前相对割裂的三种视角——以流程为导向、以自主性为导向以及以机制为导向——将基础能力、核心过程与具体领域实现有机衔接。在此框架基础上,本文进一步:(i)梳理了 AI for Science 的演进历程;(ii)识别了支撑科学主体性的五项核心能力;(iii)将科学发现建模为一个动态的四阶段工作流程;(iv)综述了上述多个学科领域中的应用实例;以及(v)综合分析了关键挑战与未来机遇。本研究构建了一个面向领域的自主科学发现综合视角,并将 Agentic Science 定位为推动 AI 驱动科研发展的结构化范式。原文链接:https://arxiv.org/abs/2508.14111
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Memento: Fine-tuning LLM Agents without Fine-tuning LLMsSummary本文提出了一种用于自适应大型语言模型(LLM)智能体的全新学习范式,该范式无需对底层 LLM 进行微调。现有方法往往存在两类局限:要么依赖静态、人工设计的反思工作流,灵活性不足;要么计算成本高昂,需要对 LLM 模型参数进行梯度更新。相比之下,我们的方法通过基于记忆的在线强化学习,实现了低成本的持续自适应。我们将该过程形式化为一种记忆增强的马尔可夫决策过程(Memory-augmented Markov Decision Process,M-MDP),并引入一个神经化的案例选择策略来指导行动决策。历史经验被存储在情景记忆中,该记忆既可以是可微的,也可以是非参数化的。策略通过一种记忆重写机制,基于环境反馈持续更新;而策略改进则通过高效的记忆读取(检索)来实现。我们在深度研究(deep research)场景中实例化了该智能体模型,命名为 Memento。该模型在 GAIA 验证集上取得了第一名(Pass@3 为 87.88%),在测试集上达到 79.40%。在 DeepResearcher 数据集上,其 F1 值为 66.6%,PM 为 80.4%,超过了当前最先进的基于训练的方法;同时,基于案例的记忆机制在分布外任务上带来了 4.7% 至 9.6% 的绝对性能提升。总体而言,我们的方法为构建具备持续、实时学习能力且无需梯度更新的通用型 LLM 智能体提供了一条可扩展且高效的路径,推动了机器学习在开放式技能获取和深度研究场景中的发展。代码已在上述 HTTPS 链接中公开。原文链接:https://arxiv.org/abs/2508.16153
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Anemoi: A Semi-Centralized Multi-agent System Based on Agent-to-Agent Communication MCP server from Coral ProtocolSummary近年来,通用型多智能体系统(Multi-Agent Systems,MAS)的研究进展主要遵循“上下文工程 + 集中式”的范式,即由一个规划智能体通过单向提示传递来协调多个执行智能体。尽管在规划智能体能力较强时该设计较为有效,但其存在两个关键局限:(1)对规划智能体能力的高度依赖,当规划智能体由规模较小的语言模型(LLM)驱动时,系统性能会显著下降;(2)智能体之间的通信受限,协作主要依赖提示的简单拼接,而非通过结构化讨论实现真正的结果细化与改进。为应对上述挑战,我们提出了 Anemoi——一种基于 Coral Protocol 的 Agent-to-Agent(A2A)通信 MCP 服务器构建的半集中式多智能体系统。与传统设计不同,Anemoi 支持结构化且直接的智能体间协作,使所有智能体能够实时监控任务进展、评估阶段性结果、识别瓶颈并提出改进建议。该范式降低了对单一规划智能体的依赖,支持自适应的计划更新,并减少了冗余的上下文传递,从而实现更具可扩展性的执行过程。在 GAIA 基准测试上的评估结果表明,当使用小规模 LLM(GPT-4.1-mini)作为规划智能体时,Anemoi 取得了 52.73% 的准确率;在相同 LLM 设置下,该成绩相比最强的开源基线 OWL(43.63%)提升了 9.09 个百分点。我们的实现已在上述 https URL 上公开发布。原文链接:https://arxiv.org/abs/2508.17068
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:OPENCUA: Open Foundations for Computer-Use AgentsSummary视觉—语言模型已展示出作为计算机使用代理(Computer-Use Agents,CUAs)的卓越能力,能够自动化完成多种计算机任务。随着其商业潜力不断提升,最先进的 CUA 系统的关键技术细节仍然处于封闭状态。鉴于这类代理将日益在数字交互中充当中介,并代表我们执行具有重要影响的决策,研究社区亟需开放的 CUA 框架,以系统性地研究其能力、局限性与潜在风险。为弥补这一缺口,我们提出了 OpenCUA,一个用于扩展 CUA 数据与基础模型的综合性开源框架。该框架包括以下三项核心组成部分:(1)一个标注基础设施,能够无缝捕获人类的计算机使用示范;(2)AgentNet,这是首个大规模计算机使用任务数据集,覆盖 3 种操作系统以及 200 余个应用程序和网站;(3)一个可扩展的数据处理流水线,将示范转化为状态—动作对,并引入具有反思性的长链式思维(Chain-of-Thought)推理,从而在数据规模扩大时持续带来稳健的性能提升。我们的端到端代理模型在多项 CUA 基准测试中表现出强劲性能。尤其是,OpenCUA-72B 在 OSWorld-Verified 上取得了 45.0% 的平均成功率,在开源模型中建立了新的最优性能(SOTA)。进一步分析表明,该方法在跨领域场景中具有良好的泛化能力,并且能够显著受益于测试阶段计算量的增加。我们已公开发布标注工具、数据集、代码及模型,以构建开放基础,推动后续 CUA 研究的发展。原文链接:https://arxiv.org/abs/2508.09123
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use AgentsSummary我们提出了 ComputerRL——一个面向自主桌面智能的框架,使智能体能够熟练地操作复杂的数字化工作空间。ComputerRL 引入了 API-GUI 范式,将程序化的 API 调用与直接的 GUI 交互统一起来,从而解决机器智能体与以人为中心的桌面环境之间固有的不匹配问题。为了在多样化的桌面任务上实现能力提升与泛化,端到端强化学习(RL)的规模化训练至关重要;然而,由于环境效率低下以及长时间训练过程中的不稳定性,这一目标仍然面临诸多挑战。为支持可扩展且稳健的训练,我们构建了一套分布式强化学习基础设施,能够调度数千个并行的虚拟桌面环境,从而加速大规模在线强化学习。此外,我们提出了一种名为 Entropulse 的训练策略,通过在强化学习与监督微调之间交替训练,有效缓解了长时间训练过程中出现的熵坍塌问题。我们将 ComputerRL 应用于开源模型 GLM-4-9B-0414 和 GLM-4.1V-9B-Thinking,并在 OSWorld 基准上进行了评测。结果表明,AutoGLM-OS-9B 达到了 48.9% 的新 SOTA 准确率,显著提升了通用智能体在桌面自动化任务中的表现。我们的代码以及新的 OfficeWorld 基准测试已在所述 https 链接中公开。该算法与框架也已被用于构建 AutoGLM(Liu 等,2024b)。原文链接:https://arxiv.org/abs/2508.14040
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RLSummary近年来,大型语言模型(LLM)和多智能体系统的快速发展,已在深度研究、氛围式编程(vibe coding)以及数学推理等复杂问题求解任务中展现出卓越能力。然而,现有的大多数多智能体系统依赖人工设计的提示词与工作流工程,并构建在复杂的智能体框架之上,这使得它们在计算上效率低下、能力受限,且难以从以数据为中心的学习范式中获益。在本文中,我们提出了 Chain-of-Agents(CoA)——一种新的 LLM 推理范式,使单一模型即可原生地端到端完成复杂问题求解,其方式与多智能体系统等价(即通过多轮交互、使用多种工具并扮演多个智能体角色来解决问题)。在 Chain-of-Agents 的问题求解过程中,模型会动态激活不同的工具型智能体和角色扮演型智能体,以端到端的方式模拟多智能体协作。为在 LLM 中激发端到端的 Chain-of-Agents 求解能力,我们提出了一种多智能体蒸馏框架,将最先进的多智能体系统蒸馏为 Chain-of-Agents 轨迹,用于智能体化的监督微调(agentic supervised fine-tuning)。随后,我们在可验证的智能体任务上引入智能体强化学习(agentic reinforcement learning),进一步提升模型在 Chain-of-Agents 问题求解方面的能力。我们将最终得到的模型称为智能体基础模型(Agent Foundation Models,AFMs)。大量实验结果表明,AFM 在 Web 智能体和代码智能体等多种设置下的多项基准测试中均取得了新的最先进性能。我们将全部研究成果完全开源,包括模型权重、训练与评估代码以及训练数据,为未来关于智能体模型和智能体强化学习的研究提供了坚实的起点。原文链接:https://arxiv.org/abs/2508.13167
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:AI Agent Smart Contract Exploit GenerationSummary智能合约漏洞已造成数十亿美元的损失,但发现可实际利用的攻击仍然极具挑战性。传统模糊测试工具依赖僵化的启发式规则,难以应对复杂攻击;而人工审计虽然细致,却效率低下且难以规模化。大型语言模型(LLM)提供了一种颇具潜力的折中方案,将类人的推理能力与机器级的执行速度相结合。然而,早期研究表明,仅通过提示词驱动 LLM 往往会产生未经验证的漏洞猜测,且误报率较高。为解决这一问题,我们提出了 A1——一种智能体(agentic)系统,可将任意 LLM 转化为端到端的漏洞利用生成器。A1 为智能体提供了六种领域特定工具,用于自动化漏洞发现,覆盖从理解合约行为到在真实区块链状态上测试攻击策略的全过程。所有输出结果均通过实际执行进行严格验证,确保仅报告具备实际获利能力的概念验证(PoC)漏洞利用。我们在以太坊和币安智能链上的 36 个真实世界漏洞合约上对 A1 进行了评估。在 VERITE 基准测试中,A1 取得了 63% 的成功率。在所有成功案例中,A1 单个漏洞利用最高可提取 859 万美元,总计可达 933 万美元。通过在六种 LLM 上开展的 432 次实验,我们发现大多数漏洞利用在五次迭代内即可生成,单次尝试的成本介于 0.01 美元至 3.59 美元之间。此外,通过对历史攻击进行蒙特卡洛分析,我们表明:若能立即检测到漏洞,成功概率可达 86%–89%;若延迟一周再发现,成功概率则骤降至 6%–21%。经济性分析进一步揭示了一种令人担忧的不对称性:攻击者在仅 6000 美元的漏洞价值下即可实现盈利,而防御者则需要 60000 美元——这引发了一个根本性问题,即 AI 智能体是否不可避免地更倾向于促进攻击而非防御。原文链接:https://arxiv.org/abs/2507.05558
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Smart Contract Fuzzing Towards Profitable VulnerabilitiesSummary数十亿美元通过智能合约进行交易,使得漏洞成为重大的金融风险。在安全攻防竞赛中,一个重要焦点是攻击者可以加以利用的高收益漏洞。模糊测试(Fuzzing)是识别此类漏洞的关键方法。然而,现有解决方案主要面临两方面的限制:其一,缺乏以收益为中心、能够加速漏洞发现的技术;其二,在最大化已发现漏洞的可获利性方面自动化程度不足,往往仍需依赖人工专家进行分析。为弥补这些不足,我们提出了 VERITE——一种以收益为中心的智能合约模糊测试框架,不仅能够有效检测高收益漏洞,还能够最大化漏洞利用所获得的收益。VERITE 具有三个关键特性:1)基于 DeFi 行为的变异器,用于增强对具有不同资金流向交易的探索能力;2)潜在高收益候选输入的识别准则,通过检测测试过程中输入是否引发异常的资金流动特征;3)针对已识别候选输入的、基于梯度下降的收益最大化策略。VERITE 从零开始完整实现,并在一个包含 61 个真实世界中已被利用的 DeFi 项目的数据集上进行了评估,这些项目的平均损失超过 110 万美元。实验结果表明,VERITE 能够自动提取总计超过 1800 万美元的收益,并且在漏洞检测能力(29/10)和漏洞利用效果(平均获利高出 134 倍)方面均显著优于当前最先进的模糊测试工具 ITYFUZZ。值得注意的是,在 12 个测试目标中,VERITE 所获得的收益甚至超过了真实攻击中使用的漏洞利用手段(高出 1.01 至 11.45 倍)。此外,VERITE 已被审计人员应用于合约审计实践中,成功发现了 6 个零日漏洞(其中 5 个为高危漏洞),并获得了超过 2500 美元的漏洞赏金奖励。原文链接:https://arxiv.org/abs/2501.08834
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Virtual Agent EconomiesSummary自主型 AI 智能体的快速采用正在催生一个新的经济层面,在这一层面中,智能体以超出人类直接监督能力的规模和速度进行交易与协作。我们提出“沙盒经济”(sandbox economy)这一框架,用以分析这一新兴系统,并从两个关键维度对其进行刻画:其起源(自发涌现型 vs. 有意设计型),以及其与既有人类经济之间的隔离程度(可渗透型 vs. 不可渗透型)。当前的发展轨迹表明,一个规模庞大且高度可渗透的 AI 智能体经济正在自发形成。这一趋势既为前所未有的大规模协调提供了机遇,也带来了显著挑战,包括系统性经济风险以及不平等的进一步加剧。本文讨论了若干可能的设计选择,这些选择有助于实现安全且可控的 AI 智能体市场。具体而言,我们考察了用于公平资源分配与偏好协调的拍卖机制、围绕实现集体目标而进行协调的 AI“使命经济”(mission economies)的设计,以及确保信任、安全与问责所需的社会—技术基础设施。通过上述分析,我们主张对可引导的智能体市场进行前瞻性设计,以确保即将到来的技术变革能够与人类长期的整体繁荣相一致。原文链接:https://arxiv.org/abs/2509.10147
Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。今天的主题是:Why Language Models HallucinateSummary就像学生在面对困难的考试题目时一样,大型语言模型在不确定时有时会进行猜测,生成看似合理但实际上错误的陈述,而不是承认自身的不确定性。即便在最先进的系统中,这类“幻觉”现象仍然存在,并削弱了人们对模型的信任。我们认为,语言模型之所以会产生幻觉,是因为训练和评估流程奖励猜测行为,而非承认不确定性;并且我们分析了现代训练流水线中导致幻觉的统计学成因。幻觉并不神秘——它们本质上只是二元分类中的错误。如果无法将错误陈述与事实区分开来,那么在自然的统计压力作用下,预训练语言模型中就会产生幻觉。接着,我们指出,幻觉之所以持续存在,是由于大多数评测的评分方式所致——语言模型被优化成“擅长应试”的系统,而在不确定时进行猜测能够提升测试成绩。这种对不确定回答进行惩罚的“流行病”,只能通过一种社会—技术层面的缓解手段来解决:与其引入新的幻觉评测,不如修改那些虽然存在错位但却主导排行榜的现有基准的评分方式。这一改变可能会引导该领域迈向更加值得信赖的人工智能系统。原文链接:https://arxiv.org/abs/2509.04664























