深度解析Intern-S1如何颠覆科研AI
Update: 2025-08-24
Description
本期论文:INTERN-S1: A SCIENTIFIC MULTIMODAL FOUNDATION MODEL
Intern-S1 在多个方面展现了显著的创新,这些创新主要体现在其模型架构、数据策略以及训练系统和算法优化上,旨在弥合开放源代码与闭源模型在科学理解和推理能力上的差距,并向通用人工智能(AGI)迈进。
以下是 Intern-S1 的主要创新点:
- 专业通用型多模态基础模型定位:Intern-S1 被设计为一个能够分析多种科学模态数据(如分子结构、时间序列信号等)的专业通用型模型。它旨在成为加速科学发现的多模态大型推理模型。
- 创新的模型架构设计:多专家混合(Mixture-of-Experts, MoE)架构:Intern-S1 采用 Qwen3-235B MoE 模型作为基础 LLM,总参数达 2410 亿,激活参数 280 亿,提升了处理复杂任务的能力。
多模态编码器:根据科学模态的不同表示形式,Intern-S1 采用不同的策略将其投射到 LLM 的表示空间。InternViT 视觉编码器:使用 InternViT 系列(Intern-S1 采用 InternViT-6B,Intern-S1-mini 采用 InternViT-300M),提供强大的高分辨率、细粒度视觉表示,并支持动态分辨率,通过 MLP 投影仪与语言模型对齐。
动态分词器(Dynamic Tokenizer):这是针对分子结构(如 SMILES 格式)、蛋白质序列等可线性化的离散科学表示设计的。它解决了传统静态分词器在科学领域压缩率低和不同模态相同 token 嵌入偏差的问题。该分词器通过规则或特殊标签检测模态,对不同部分应用不同分词策略,并使它们的嵌入空间相互正交。实验证明,其在科学数据(如 SMILES 格式)上的压缩率比其他模型提高了 70% 以上,显著节省了计算开销。
时间序列编码器(Time Series Encoder):用于处理地震波、引力波、EEG 记录等连续数值序列数据。它能捕捉时间依赖性,将长、连续、缺乏显式语义结构的数据压缩成适合 LLM 理解和推理的表示,并包含专门的自适应下采样模块和基于 Transformer 的块。 - 大规模高质量科学数据策展:高纯度科学数据管道:通过 agent 工作流从网络数据中挖掘预训练数据,将目标领域的数据纯度从约 2% 提高到 50% 以上。
页面级 PDF 文档解析:采用混合 OCR 和 VLM 管道,结合低成本解析器(如 MinerU)和高成本 VLM(如 InternVL、Qwen-VL)进行页面级解析,以平衡质量和成本,特别处理包含大量公式和符号标记的文档。
以领域为中心的网络数据解析:对来自相同 URL 域的网页,通过 LLM-based agent 应用定制化策略,解决通用解析器难以处理的结构性问题。
多模态科学数据管道:构建了多模态科学数据,以保留细粒度的科学结构(如图表、公式、符号、表格),并对齐视觉资产与上下文,生成适用于科学推理的指令式和考试式监督数据。 - 先进的训练系统与算法优化:InternBootCamp 大型交互式环境:一个包含 1000 多种任务的平台,用于模型专业技能学习,提供可验证的奖励信号。
Mixture-of-Rewards (MoR) 框架:这是一个创新的算法框架,能够统一协调来自不同任务和反馈形式的奖励信号,实现千级任务的协同学习。对于难以验证的任务(如创意写作、聊天),采用 POLAR 提供统一奖励;对于易于验证的任务,结合验证模型、规则和环境反馈生成精确的奖励标量。该框架使 RL 训练过程的成本比现有基线降低了 10 倍,高样本效率对于教授模型科学领域的专业技能至关重要。
可变长度均衡策略(Variable-Length Balanced Strategy, VLBS):解决了 FSDP 在可变长度训练中的工作负载不平衡问题,平均加速了 2 倍。
RL 算法优化:采用 OREAL 算法,通过行为克隆和策略梯度,避免了 MoE 模型训练中因 token 级别裁剪而导致的崩溃问题。
引入 KL-Cov 策略进行熵控制,以防止熵快速降低导致探索能力丧失,这对于 Intern-S1 MoE 模型在冷启动后初始熵较低的情况尤为关键。
结合了混合离线-在线数据过滤策略,筛选高质量的训练数据,加速模型在数学推理等任务上的改进。
训练效率提升:包括 FP8 精度训练、优化的内核(如 Grouped GEMM、Liger-kernel、Flash Attention-3) 以及训练和推理引擎的同地设计。
训练策略:采用批大小热身(Batch Size Warmup)策略以平衡性能和训练效率,并基于 Scaling Laws 精确调整学习率和批大小切换点。
这些集成创新共同使 Intern-S1 在通用推理任务上显著缩小了与闭源大型模型的差距,并在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业科学任务中,表现甚至超越了闭源最先进模型,为开放源代码多模态科学推理设定了新的标杆。
Comments
In Channel