腾讯AI Lab的“角色中心”:十亿虚拟角色如何驱动AI生成数据
Description
Scaling Synthetic Data Creation with 1,000,000,000 Personas
Persona Hub 是一个包含 10亿个多样化角色(persona) 的集合,这些角色是从海量网络数据中自动整理出来的。这些角色约占世界总人口的13%。Persona Hub中的每个角色都被视为世界知识的分布式载体,与独特的知识、经验、兴趣、个性和职业相关联。从压缩的角度来看,Persona Hub(约10^10个token)可以被看作是将用于训练大型语言模型(LLM)的公共网络文本(约10^14个token)压缩成分布式载体的形式。
Persona Hub 通过引入一种新颖的角色驱动数据合成方法,彻底改变了LLM的合成数据创建。
以下是 Persona Hub 如何实现这一革命性变革的详细说明:
1. 解决多样性和可扩展性挑战:
◦ 以往的合成数据创建方法,如“实例驱动”和“关键点驱动”,在扩展多样性方面面临挑战。实例驱动方法受限于种子语料库的规模,难以超越其多样性。关键点驱动方法则难以枚举所有不同粒度的关键点,除非仅限于狭窄领域。
◦ Persona Hub 的角色驱动方法克服了这些限制,通过将角色添加到数据合成提示中,引导LLM从相应视角创建独特的合成数据。由于几乎所有LLM用例都可以与特定角色关联,因此只要构建一个全面的角色集合,就可以大规模创建包罗万象的合成数据。Persona Hub 的10亿个角色可以充分利用LLM中封装的几乎所有视角,从而大规模地促进各种场景下多样化合成数据的创建。
2. Persona Hub 的构建方式:
◦ Persona Hub 采用两种可扩展的方法从海量网络数据中获取多样化角色:文本到角色(Text-to-Persona) 和 角色到角色(Persona-to-Persona)。
◦ 文本到角色:通过提示LLM“谁可能[阅读|撰写|喜欢|不喜欢|...]此文本?”,从任何文本中推断出相应的角色。输入文本的细节程度可以影响生成角色描述的粒度,例如,从数学教科书或超导学术论文中提取的文本会产生更具体和细致的角色描述。
◦ 角色到角色:用于补充文本到角色方法可能难以触及的低可见度角色(例如,儿童、乞丐或电影幕后工作人员),通过利用角色间的人际关系来派生新角色。例如,通过提示LLM“谁与给定角色关系密切?”,可以从儿科护士的角色派生出儿童的角色。
◦ 为了确保多样性,Persona Hub 还通过 MinHash 和基于嵌入的去重方法,以0.9的相似度阈值进行去重,最终收集了超过10亿个角色。
3. 广泛的应用场景和潜力:
◦ Persona Hub 能够促进大规模创建各种高质量的合成数据,包括:
▪ 数学和逻辑推理问题:可以通过结合不同专业背景的角色(例如,化学动力学研究员、语言学家、数学教师、数学教授)来生成多样化、特定领域甚至奥林匹克级别的数学问题。例如,一个语言学家角色可以生成计算语言学背景下的几何问题。
▪ 指令(用户提示):Persona Hub 可用于模拟各种真实用户,预测他们对LLM的典型请求,生成多样化的用户指令。这些指令可用于增强LLM的指令遵循和对话能力,甚至可以模拟两人之间的对话。
▪ 知识丰富文本:通过让LLM扮演 Persona Hub 中的角色来撰写类似 Quora 文章的文本,可以引发LLM相应领域的知识和视角,从而生成大量涵盖广泛主题和不同粒度的知识丰富内容。
▪ 游戏NPCs(非玩家角色):将 Persona Hub 中的真实世界角色投射到游戏世界中的人物,大大减少游戏设计过程中NPC构思的工作量,例如为《魔兽世界》或《天涯明月刀》创建NPC。
▪ 工具(函数)开发:Persona Hub 能够预测用户可能需要的工具,从而预先构建这些工具(函数),使LLM能够直接调用预构建工具来响应类似请求,而不是每次都从头构建。
4. 对LLM研究和开发的深远影响:
◦ 数据创建范式转变:Persona Hub 使得LLM不再局限于处理现有数据,而是能够从多重视角创建各种类型的新数据,从而推动数据创建从主要由人类完成转向LLM也能大规模完成的范式转变。这有望消除数据瓶颈,将缩放定律推向极限。
◦ 现实模拟:10亿个角色可以代表现实世界中的各种个体,通过模拟和推断真实用户的潜在需求和行为,LLM可以自主准备未来的用例,并有效模拟真实世界。这有助于预测产品发布后的用户反应、新法规的公众响应,甚至在沙盒环境、在线游戏或元宇宙中维持一个组织良好的虚拟社会。
◦ LLM的“完全记忆访问”:Persona Hub 中的10亿个角色可以触及LLM中编码的几乎所有视角和信息,从而将LLM的综合记忆(参数)转化为文本形式的合成数据,提供了访问LLM全部记忆的潜在机会。
◦ 性能提升的验证:通过使用1.07M个合成数学问题对一个7B的LLM(Qwen2-7B)进行微调,该模型在MATH基准测试中取得了64.9%的准确率,达到了GPT-4-turbo-preview的水平,这在仅7B规模的模型上是令人印象深刻的。此外,合成的数学问题有效率高达96.5%。
Persona Hub 提供了一种通用、可扩展、灵活且易于使用的数据合成引擎,有望在合成数据创建和应用方面带来范式转变,并对LLM的研究和开发产生深远影响。