five

EleutherAI/proof-pile-2|机器学习数据集|人工智能数据集

收藏
hugging_face2023-10-25 更新2024-03-04 收录
机器学习
人工智能
下载链接:
https://hf-mirror.com/datasets/EleutherAI/proof-pile-2
下载链接
链接失效反馈
资源简介:
Proof-Pile-2是一个包含550亿个token的数学和科学文档数据集,用于训练Llemma 7B和Llemma 34B模型。该数据集由三个子集组成:arxiv(29B tokens)、open-web-math(15B tokens)和algebraic-stack(11B tokens)。arxiv子集来自RedPajama,open-web-math子集包含互联网上的高质量数学文本,algebraic-stack子集是一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。每个数据行包含文本和元数据。数据集的内容详细列出了AlgebraicStack中各编程语言的token数量。许可证信息未改变原始数据的许可证。版本历史包括v1.1.0和v1.0.0,分别对应不同版本的OpenWebMath。引用部分提供了对整个数据集及其子集的引用格式。
提供机构:
EleutherAI
原始信息汇总

数据集概述

名称: Proof-Pile-2

大小: 55亿 token

语言: 英语 (en)

任务类别: 文本生成 (text-generation)

标签: 数学 (math)

数据集组成:

  • arxiv (29亿 tokens)
  • open-web-math (15亿 tokens)
  • algebraic-stack (11亿 tokens)

数据集详情

子集描述

  • arxiv: 来自 RedPajama 的 ArXiv 子集。
  • open-web-math: OpenWebMath 数据集,包含互联网上的高质量数学文本。
  • algebraic-stack: 包含数学代码的新数据集,涉及数值计算、计算机代数和形式数学。

数据集结构

  • 每行结构: python { "text": ..., # 文档文本 "meta": ..., # JSON 字符串形式的元数据 }

许可证

  • 不更改任何底层数据的许可证。

版本历史

  • v1.1.0: 包含更新的 OpenWebMath 版本,改进了过滤,例如移除了非常短的文档。
  • v1.0.0: 用于训练 Llemma 7B 和 Llemma 34B 的数据。

引用信息

  • 整个 Proof-Pile-2:

    @misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and others}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} }

  • ArXiv 子集:

    @software{together2023redpajama, author={Together Computer}, title={RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month={April}, year={2023}, url={https://github.com/togethercomputer/RedPajama-Data} }

  • OpenWebMath:

    @misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and others}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Proof-Pile-2数据集的构建旨在为数学和科学文档领域提供丰富的训练资源,总计包含55亿个标记。该数据集整合了三个子集:来自RedPajama的ArXiv子集、OpenWebMath数据集以及全新的AlgebraicStack数学代码数据集。这些子集通过精心筛选和语言特定的启发式方法,确保了数学内容的高质量与相关性。
特点
该数据集的特点在于其内容的多样性和专业性。ArXiv子集提供了广泛的学术研究论文,OpenWebMath子集包含了互联网上高质量数学文本的丰富资源,而AlgebraicStack子集则专注于数学代码,涵盖了多种编程语言。整体而言,Proof-Pile-2为数学语言模型的训练提供了全面且深入的数据支持。
使用方法
用户可以通过Hugging Face的datasets库轻松加载整个Proof-Pile-2数据集或其特定子集。数据集的每一行都包含文档文本和元数据,其中元数据以JSON字符串的形式存储,且其模式特定于数据源。这种结构设计使得数据集在加载和使用过程中既灵活又方便。
背景与挑战
背景概述
Proof-Pile-2数据集,由EleutherAI团队创建,是一个涵盖数学与科学文档的55亿token的数据集。该数据集旨在训练Llemma 7B与Llemma 34B模型,汇集了来自ArXiv、OpenWebMath以及全新构建的AlgebraicStack三个子集的数据。其构建标志着数学领域语言模型训练数据集的重要进展,为数学知识的学习与应用提供了丰富的文本资源。
当前挑战
该数据集在构建过程中面临了多方面的挑战:首先,数学文本的收集与筛选需确保高质量与相关性,这对数据集的准确性提出了高要求;其次,不同来源的数据整合与格式统一工作复杂,对数据处理的鲁棒性提出了挑战;最后,如何在保证数据质量的同时,遵循各数据源原有的版权协议,也是数据集构建中的一大考验。
常用场景
经典使用场景
在数学与科学领域,Proof-Pile-2数据集的经典使用场景主要在于支撑数学语言模型的训练,如Llemma 7B与Llemma 34B模型,其通过吸收数据集中的丰富数学文本,为模型提供深度学习的基础。
衍生相关工作
基于Proof-Pile-2数据集,已经衍生出了一系列相关研究工作,如Llemma系列模型的开发,以及针对特定数学问题的高效算法研究,这些工作进一步推动了数学与计算机科学的交叉融合,促进了数学知识工程的发展。
数据集最近研究
最新研究方向
在数学与科学文献领域,Proof-Pile-2数据集的构建标志着对数学语言模型训练资源的重要拓展。该数据集涵盖了55亿个标记的数学和科学文档,旨在支持Llemma系列模型的训练,其中包括29亿个标记的ArXiv子集、15亿个标记的OpenWebMath子集以及11亿个标记的AlgebraicStack子集。近期研究聚焦于利用这一数据集进一步优化数学语言模型的性能,提升数学文本生成的准确性和流畅性,进而推动数学研究、教育和科学普及的发展。Proof-Pile-2的发布,不仅丰富了数学语言处理领域的研究资源,也为相关模型的评估与比较提供了统一的标准,对于促进数学知识传播和技术创新具有深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

NAEP - National Assessment of Educational Progress

NAEP(国家教育进展评估)数据集包含了美国全国范围内对学生学术成就的定期评估结果。该数据集涵盖了多个学科领域,如阅读、数学、科学等,并提供了不同年级和不同州的数据。数据集还包括了学生的背景信息和社会经济因素,以帮助分析教育成就的影响因素。

nces.ed.gov 收录