five

OpenWebMath

收藏
arXiv2023-10-11 更新2024-06-21 收录
下载链接:
https://huggingface.co/datasets/open-webmath/open-web-math
下载链接
链接失效反馈
官方服务:
资源简介:
OpenWebMath是一个包含14.7亿个令牌的高质量数学网页文本开放数据集。该数据集由多伦多大学和向量人工智能研究所的研究人员创建,旨在为大型语言模型提供丰富的数学内容,以增强其定量推理能力。数据集内容主要来源于Common Crawl,经过精细的文本和LATEX内容提取,以及质量过滤和去重处理。OpenWebMath的应用领域广泛,主要用于预训练和微调大型语言模型,以解决复杂的数学问题。

OpenWebMath is a high-quality open web mathematical text dataset containing 1.47 billion tokens. It was created by researchers from the University of Toronto and the Vector Institute for Artificial Intelligence, aiming to provide rich mathematical content for large language models (LLMs) to enhance their quantitative reasoning capabilities. The dataset is mainly sourced from Common Crawl, and has undergone meticulous text and LaTeX content extraction, quality filtering and deduplication processing. OpenWebMath has a wide range of application scenarios, and is primarily used for pre-training and fine-tuning large language models to solve complex mathematical problems.
提供机构:
多伦多大学; 向量人工智能研究所
创建时间:
2023-10-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作