PG电子
PG电子3710亿数学tokens全面开放!开源数学预训练数据集MegaMath发布
PG电子,pg娱乐,PG电子试玩平台,PG电子技巧,PG电子下载
在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。
近日,LLM360 推出了MegaMath:全球目前最大的开源数学推理预训练数据集,共计3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据三大领域。
这不仅是首次在规模上超越 DeepSeek-Math Corpus(120B)的开源数据集,更代表从「只靠网页」到「面向推理」的重大跨越。短短数日时间,数据集下载量已经来到 3 万余次,并且持续在Hugging Face趋势榜上名列前茅。
在现有主流闭源数学语料如 Qwen-2.5-Math(1T)和 DeepSeekMath(120B)持续展现卓越数学能力的同时,开源研究社区长期缺乏等量级、等质量的数学数据。当前可用的开源数据集(如 OpenWebMath、FineMath)规模过小,无法支撑更大规模的模型训练;过滤过度,导致数学样本量缺失多样性不足。
为解决这一痛点,MegaMath 团队本着「做困难而正确的事情」为目标,以规模 × 质量 × 多样性为核心设计,历时 9 个月时间,构建了全面开放的数学推理数据底座。
每部分数据均经过多轮筛选、清洗并通过下游预训练实验充分验证,以确保实用性与泛化能力并存。
如何构建这样一个庞大的推理数据集呢?作者将他们主要分为 3 块内容,并精心设计了不同的数据「流水线」,确保高效、高质量的数据开发。
为了彻底优化数学文本的处理流程,作者重新下载处理了2014–2024 年间所有的 99 个Common Crawl文件包,并对互联网的数学文本提取进行一系列大量的工程优化来确保数据质量:
当前常用的开源文本抽取工具对 HTML 中数学的元素并没有很好地处理,团队因此开发了一套HTML 结构优化的脚本,在抽取前就提取和优化LaTeX、KaTeX、mathml 等元素中的公式信息进行重构,以确保在抽取时充分保留文本中的数学符号、公式和定理。
由于不同抽取器的处理速度有区别,团队创新地采用了两段式提取方法,第一阶段注重效率,用快速的抽取器进行抽取 + 筛除非数学样本;第二阶段注重精度,用包含更多规则的处理器进一步移除文本噪音和精细筛选出和数学强相关的数据。这使得 MegaMath 最终保留出数学强相关、且更干净的大规模数学文本数据。
对于如何训练稳健而准确的文本分类器,团队也发现了因为种子数据收集带来的分布偏移问题,因此在第一阶段的粗筛之后通过重新收集种子数据训练分类器来进行二阶段筛选。
考虑到目前研究社区对于续训练(Continual Pre-training)、中期训练(Mid-Training)的广泛需求,作者还利用语言模型对文本的教育价值进行动态打分,再次过滤得到包含极高教育价值的数学子集,并进一步用 LLM 进行精炼,得到了远超开源任何数据集质量的子集;在和现存最高质量的数据 FineMath 进行一对一公平对比时,也能显著超过 4% 的下游性能。
代码数据被广泛验证,有利于提升模型的数学表现、提升模型利用「生成代码 + 执行求解」范式进行解题的能力。
因此,这是一份宝贵的数据领域。MegaMath 在现存最大的代码预训练数据集 Stack v2 中挖掘了数学相关代码块,同时结合团队之前提出的Programming Every Example(ProX)方法,利用(1)大模型评分(LLM scoring);(2)微调小模型快速筛选(SLM filtering)的方式,高效清洗出了包括科学计算、符号推理、逻辑程序等领域的代码数据,形成 MegaMath-Code,一个包含28.1B tokens的数学相关语料,包含了共 11 种编程语言,进一步加强了数据集的丰富程度。
近年来,合成数据已经成为大模型训练不可缺失的一部分数据;尤其是当传统的数据已经被大量发掘和利用的情况下,合成数据代表了一类可持续被开发的高质量数据源。这在之前的开源预训练数据集中,通常是没有被探索的。
MegaMath 团队积极拥抱合成数据,并开源了预训练规模的高质量文本,包含(1)Q&A 问答形式(解决数学题);(2)合成代码(跨语言转为 Python);(3)文本 + 代码交错数据(更贴近真实解题场景);所有样本都经过质量检测(包括代码块的可执行性校验)。团队通过不断优化 Prompt、简化工程设计,达到在消融实验中表现全面优于现有合成的基线。
MegaMath 不是单纯地「堆数据」拼大小,而是对每一步都进行了严谨验证以确保数据质量。
这包括:(1)文本抽取流程验证;(2)去重策略对比(在机器承受范围内寻求最优的MinHash去重策略);(3)fastText 过滤阈值、训练策略调优;(4)代码数据比重 & SLM召回率消融;(5)合成策略的迭代。
为了检验这些策略,所有的实验都在足够大的尺度下进行了预训练 + 下游评测的验证实验,用来为最终的方案和策略提供足够显著的实验信号。
实验表明,MegaMath 能够在 GSM8K、MATH 等数 10 个标准数学任务上取得15–20% 的绝对提升。这些数字实打实地说明了 MegaMath 数据集在数学推理上的显著效果。
作者希望,MegaMath 的发布,能在一定程度上推动开源数学预训练数据集在规模、质量与多样性上的进一步发展,也希望 MegaMath 能成为构建更强数学语言模型的一个坚实起点,激发更多来自学术界与工业界的合作与创新。
在迈向更强推理能力与更高智能上限的过程中,MegaMath 只是初步阶段的尝试。作为一个致力于开放科学与开源研究的团队,团队深知这项工作的挑战与局限,也非常感激开源社区给予的诸多启发与帮助。
特别感谢 Hugging Face、DeepSeek、Qwen 等优秀开源团队长期以来提供的模型、工具和数据方案,让团队有机会站在巨人的肩膀上持续打磨和完善这个工作。
04月08日,热带风暴“黛比”袭击美国:已致5人遇难 上千航班取消,竞博体育jbo,欧博在线注册,还有能玩的德州app吗,大版贴士皇-4
04月08日,台湾同胞和海外侨胞代表与河北有关方面达成49个合作意向,白金娱乐游戏,凯时ks,6up,亚博免费试玩
04月08日,外交部:希望域外国家不要给台海和平稳定制造麻烦,永利棋牌安卓版,千赢娱乐首页,bob手机体育app,十一运夺金走势图
04月08日利用大数据切实为基层工作者减负葡京官网开户龙8国际客户端下载亚新快速登陆富博娱乐
04月08日“春之声·金梦想”跨国新春文艺晚会加德满都上演:中尼跨越雪山 携手迎春赢咖娱乐是线什么软件能玩德州体球足球网
04月08日小县城游增速“跑赢”大都市,中国游客遍及全球近200个国家乐竞体育平台注册纬来体育在哪注册韩国分分彩官方网大发体育app官方……
04月08日,【风起黄埔】黄埔二十二期彭永:黄埔军校属于中华民族,世博体育下载网站官网,新2会员登录网址是什么,KU平台,18新利全新app安卓版
04月08日,李家超:香港经济在挑战中找机遇 “抢人才抢企业”取得成果,b体育官网素描,银河备用网址,线上现金网址是多少,威尼斯最新账号
04月08日协同发展 携手奋进 ——粤港澳大湾区发展一线观察(上)日博娱乐官方澳门的那个钻石是真的吗威尼斯城vnsc登入平台必赢亚洲手机版网页登陆
04月08日,马来西亚国脚费萨尔被泼硫酸致伤,体育平台注册送58,c7娱乐官方入口,必威官网登录,亿博体育网投平台
04月08日,翟立新任天津市副市长,爱游戏登录官网,BBIN体育直播下载,体球,博天堂在线日,广东省纪委监委驻省工业和信息化厅纪检监察组一级调研员唐策被查,pokertime官方版下载,开yun登录入口登录,黄金岛充值,万博MXapp
04月08日一边向以色列供武一边援助加沙 美国行径遭国际社会广泛批评888真人国际老品牌欧宝官网网址尊龙网址是多少天博体育网
04月08日中国汽车产销破3000万辆滚球王百老汇最新地址beplay最新ios下载BG大游
04月08日(巴黎奥运)中国代表团最小运动员郑好好亮相滑板女子碗池赛凯发娱乐平台登录凯发娱乐官网手机版入口沙巴足球比分AG真人视讯平台
点读机女孩MCN机构致歉,我发各地面条,你来打分乌鲁木齐经开区(头屯河区)外资企业服务中心揭牌杏彩彩票平台网站bobapp官网下载香港铁算盘bet36体育投注体
春运里的活力中国,完蛋我被美女包围了DLC预告医保个人账户开启跨省共济功能e乐彩登录旧版棋牌21点万博网页版登录页面KYKG娱乐网址大全
菲船只非法冲闯南沙群岛 中方管控,关雪车牌号是杨幂生日直击东部战区练兵备战现场百老汇官网注册优博注册送18米乐m6官网登陆job官网
推动我军网络信息体系建设跨越发展,学姐 可以爱我吗新疆克孜勒苏州阿合奇县发生3.2级地震 震源深度10千米金沙体育kok体育APP新宝gg足球亚新在线官网
说唱梦工厂,68岁儿子笑着和98岁父亲顶嘴官方通报“药王谷抗癌中心调查”事件:已依法立案美高梅集团登录AG亚游集团mg游戏平台登录网址免费3d网络游戏
乱马1/2,阿森纳 2:2 利物浦死鱼上浇鸡血冒充新鲜?查处!365bet在线体育登录大嬴家彩票平台官网爱游戏登陆平台
有生之年,吧友锐评角色服装五一档电影:一个好消息,一个坏消息云顶游戏平台网站新2下载ku游娱乐登录页K8凯发怎么开户