five

ROOTS Corpus|多语言数据集数据集|语言模型训练数据集

收藏
arXiv2023-03-07 更新2024-06-21 收录
多语言数据集
语言模型训练
下载链接:
https://hf.co/bigscience-data
下载链接
链接失效反馈
资源简介:
ROOTS Corpus是一个1.6TB的多语言数据集,由国际多学科倡议BigScience研讨会形成,旨在研究和训练大型语言模型。该数据集覆盖59种语言,包括46种自然语言和13种编程语言,用于训练具有1760亿参数的BLOOM语言模型。数据集的创建和整理工作由BigScience负责,旨在通过开放科学和协作,将伦理、危害和治理问题置于前沿。此外,该数据集还发布了一个大型初始子集及其分析,旨在通过数据和处理工具支持大规模单语和多语建模项目,并促进对该大型多语言数据集的研究。
提供机构:
Hugging Face
创建时间:
2023-03-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
ROOTS Corpus是由BigScience研讨会构建的一个大型多语言语料库,旨在研究和训练大型语言模型。该语料库由两部分组成:62%的文本来自社区选择和记录的语言数据源,包括现有NLP数据集和文档集合;38%的文本来自预处理的网络爬取数据OSCAR,并经过母语人士的过滤。为了提高数据质量,研究人员开发了数据工具和可视化工具,用于数据清洗、过滤和去重。
特点
ROOTS Corpus是一个庞大的多语言语料库,包含59种语言,其中46种自然语言和13种编程语言。该语料库涵盖了广泛的领域和语言,并通过社区参与和母语人士的筛选,确保了数据的质量和多样性。此外,研究人员还开发了数据工具和可视化工具,用于数据清洗、过滤和去重,并提供了对语料库的统计分析。
使用方法
使用ROOTS Corpus时,首先需要了解其数据结构和特点。该语料库由多个子语料库组成,每个子语料库包含不同语言的数据。用户可以根据自己的需求选择合适的子语料库进行使用。此外,研究人员还提供了数据工具和可视化工具,用于数据清洗、过滤和去重,并提供了对语料库的统计分析,方便用户更好地理解和利用该语料库。
背景与挑战
背景概述
随着语言模型的不断壮大,对大规模高质量文本数据集的需求从未如此迫切,尤其是在多语言环境中。BigScience研讨会是一个为期一年的国际和多学科倡议,旨在研究和训练大型语言模型,将伦理、危害和治理问题置于首位。本文记录了BigScience为汇编Responsible Open-science Open-collaboration Text Sources (ROOTS)语料库而进行的数据创建和管理工作,这是一个包含59种语言的1.6TB数据集,用于训练1760亿参数的BigScience Large Open-science Open-access Multilingual (BLOOM)语言模型。我们进一步发布了语料库的一个大型初始子集及其分析,希望为大规模的单语和多语言建模项目提供数据和处理工具,并激发围绕这个大型多语言语料库的研究。
当前挑战
该数据集面临的挑战包括:1)所解决的领域问题的挑战,即构建一个大规模高质量的多语言文本数据集,以支持训练大型语言模型;2)构建过程中所遇到的挑战,包括数据收集、清洗、去重和隐私保护等方面的问题。
常用场景
经典使用场景
ROOTS Corpus 作为大规模多语言文本数据集,其最经典的使用场景之一是训练大型语言模型。例如,BigScience 项目使用 ROOTS Corpus 训练了 1760 亿参数的 BLOOM 语言模型。此外,该数据集还可用于单语言和多语言建模项目,以促进相关研究。例如,研究者可以利用 ROOTS Corpus 进行语言建模、机器翻译、文本摘要、情感分析等任务。
衍生相关工作
ROOTS Corpus 衍生了许多相关的研究工作,例如: 1. BLOOM 语言模型:BLOOM 语言模型是 BigScience 项目使用 ROOTS Corpus 训练的,具有 1760 亿参数,支持多种语言。 2. 多语言语言模型训练:研究者可以利用 ROOTS Corpus 训练各种规模和类型的语言模型,例如 mBERT、XLM-R 等。 3. 机器翻译模型训练:利用 ROOTS Corpus 训练的模型可以进行高质量的机器翻译,支持多种语言对。 4. 文本摘要模型训练:ROOTS Corpus 可用于训练文本摘要模型,自动生成文本的摘要。 5. 情感分析模型训练:利用 ROOTS Corpus 训练的模型可以进行情感分析,识别文本中的情感倾向。
数据集最近研究
最新研究方向
ROOTS Corpus作为一项大规模的多语言文本数据集,其最新研究方向主要集中在如何利用这一数据集训练和评估大型语言模型。研究内容包括但不限于:1) 使用ROOTS Corpus训练大型语言模型,并与其他公开数据集进行比较,以评估其性能和效果;2) 探讨如何利用ROOTS Corpus进行跨语言学习和零样本翻译,以提升模型在低资源语言上的表现;3) 研究如何利用ROOTS Corpus进行文本摘要、问答等下游任务的微调,以提升模型在特定任务上的表现;4) 探讨如何利用ROOTS Corpus进行文本生成、风格迁移等创造性任务的探索,以拓展语言模型的潜在应用场景。
相关研究论文
  • 1
    The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual DatasetHugging Face · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。

huggingface 收录

WikiArt

为了收集我们的美术作品集,我们使用了公开的 “维基艺术绘画” 数据集4 ;据我们所知,这是最大的数字化艺术品在线公开收藏。这个收藏有从十五个世纪到当代艺术家的1,119艺术家的81,449精工画的图像。 这些绘画来自27种不同的风格 (抽象,拜占庭,巴洛克等) 和 45种不同的流派 (室内、风景等)先前的作品 [26,9] 使用了不同的资源,并制作了较小的收藏,在风格,流派方面的可变性有限 和艺术家。[4] 的工作在数据收集程序方面最接近我们的工作,但是他们收集的图像数量是我们的一半。

OpenDataLab 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

SIMBAD Astronomical Database

SIMBAD astronomical database is the world reference database for the identification of astronomical objects and provides basic data, cross-identifications, bibliography and measurements for astronomical objects outside the solar system. Using VizieR, the catalogue service for the CDS reference collection of astronomical catalogues and tables published in academic journals and the Aladin interactive software sky atlas for access, visualization and analysis of astronomical images, surveys, catalogues, databases and related data. Simbad bibliographic survey began in 1950 for stars (at least bright stars) and in 1983 for all other objects (outside the solar system)

re3data.org 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录