现金万博manbext体育官网app平台沿用了"分合蒸馏"的盘问念念路-万博manbext体育官网(中国)官方网站登录入口

只用 5% 的参数现金万博manbext体育官网app平台,数学和代码智商果真超过满血 DeepSeek?
北京大学杨仝考验团队近期发布了其在高效大型言语模子盘问标的的一项新服从——FairyR1-32B 模子。
该模子基于 DeepSeek-R1-Distill-Qwen-32B 基座,通过酌量微调与模子团结本领构建。
盘问探索了在参数目大幅减少的情况下,模子在特定任务上杀青与更大模子十分以致更优性能的可能性。
以上模子已在 Huggingface 开源。
模子地址:https://huggingface.co/PKU-DS-LAB/FairyR1-32B
FairyR1-32B 模子瓦解
FairyR1-32B 模子是在团队前期 TinyR1 责任基础上进行的进一步探索,沿用了"分合蒸馏"的盘问念念路,提议了多种更正措施,包括自我团结、多教师交叉蒸馏、轻蒸馏等措施,并在数据管束进行了优化,模子精度有了显赫莳植。
本次责任要点更正了蒸馏数据的构建进程,对开头于AI-MO/NuminaMath-1.5(数学)和open-thoughts/OpenThoughts-114k(代码)等数据集的原始数据,通过多个"教师模子"生成谜底,随后对问答数据进行全心筛选、结构调遣与念念维链优化,并进行多阶段筛选。
筛选过程包括基于谜底的正确性考证(针对数学数据),以及基于长度的筛选(数学数据保留 2k-8k tokens 范围,代码数据保留 4k-8k tokens 范围),最终构建了更具针对性的约6.6k条数学数据和约3.8k条代码数据用于锻练。
在模子结构方面,盘问团队尝试锻练两个领域(数学和代码)的专科模子进行团结,旨在进一步优化进程和资源消费。
这两个专科模子在一致的锻练参数下(举例疏浚的学习率和批次大小)孤独锻练约 5 个周期后,应用AcreeFusion 器用进行了团结。
施行适度
在多个公开基准测试中,FairyR1 展现出了在低参数目下的竞争力弘扬。以下为 FairyR1 与 DeepSeek-R1-671B 及 DeepSeek-R1-Distill-Qwen-32B 在部分基准上的得分对比:
基准测试
DeepSeek-R1-671B(满血版)
DeepSeek-R1-Distill-Qwen-32B
FairyR1-32B ( 北京大学 )
数学智商 AIME 2024
79.8
72.6
80.4
数学智商 AIME 2025
70.0
52.9
75.6
代码智商 LiveCodeBench
65.9
57.2
67.7
科知识答智商 GPQA-Diamond
71.5
62.1
59.6
从测试适度不错看出,FairyR1-32B 在 AIME 2025 和 LiveCodeBench 基准上得分略高于 DeepSeek-R1-671B,在 AIME 2024 上弘扬接近。在 GPQA-Diamond 科学基准上,FairyR1 的得分低于 DeepSeek-R1-671B。
这些适度标明,FairyR1 在选拔 DeepSeek-R1-Distill-Qwen-32B 基座并经过特定本领管束后,梗概在约 5% 参数目的情况下,在数理和编程等领域杀青与大型模子十分或略优的性能水平,但在科学等其他领域可能存在差距。
这项责任探索了通过优化的数据管束和模子会通本领,在保证特定任务性能的前提下,大幅裁汰模子鸿沟和潜在推理本钱的可能性。
北京大学杨仝考验团队暗示:" FairyR1-32B 模子是咱们探索高效大型言语模子本瓦解线的阶段性服从。通过对蒸馏和团结措施的更正,咱们初步考证了在有限资源下杀青高性能模子的可行性。"
团队成员:李旺、周俊廷、刘文睿、姚一伦、王融乐、杨仝

一键三连「点赞」「转发」「防备心」
接待在驳倒区留住你的目的!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见现金万博manbext体育官网app平台

