five

llm-datasets

收藏
github2024-05-01 更新2024-05-31 收录
下载链接:
https://github.com/malteos/llm-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
llm-datasets是一个用于语言模型训练的数据集集合,包括下载、预处理和抽样脚本。

The llm-datasets is a collection of datasets designed for training language models, encompassing download, preprocessing, and sampling scripts.
创建时间:
2023-09-19
原始信息汇总

数据集概述

数据集描述

llm-datasets 是一个用于语言模型训练的数据集集合,包括下载、预处理和采样脚本。

快速开始

安装

使用 pip 安装 llm-datasets 包: bash pip install llm-datasets

若需要特定功能,如文本提取,可安装额外依赖: bash pip install llm-datasets[datasets]

可用命令

llm-datasets 提供命令行界面(CLI),支持多种处理和实用功能,如:

  • chunkify: 将数据集分割成等大小的文件块。
  • extract_text: 从原始数据集中提取文本。
  • hf_upload: 上传文件或目录到 Huggingface Hub。

下载和文本提取

下载并提取数据集的纯文本,命令如下: bash llm-datasets extract_text $DATASET_ID $OUTPUT_DIR

默认输出为 JSONL 文件,可通过 --output_format 参数更改输出格式。

可用数据集

使用以下命令打印所有可用数据集列表: bash llm-datasets print_stats --print_output md

按语言统计的令牌数

Language Tokens
bg 31 B
ca 6 B
code 212 B
cs 42 B
da 13 B
de 160 B
el 63 B
en 1 T
es 101 B
et 9 B
eu 1 B
fi 19 B
fr 84 B
ga 274 M
gl 231 M
hr 11 B
hu 52 B
it 61 B
lt 7 B
lv 5 B
mt 4 B
nl 44 B
nn 76 M
no 13 B
pl 45 B
pt 46 B
ro 18 B
sh 184 M
sk 32 B
sl 13 B
sr 11 B
sv 19 B
uk 56 B

按来源统计的令牌数

Source Tokens
curlicat 963 M
macocu 74 B
redpajama 44 B
wura N/A
wikihow 99 M
pes2o 57 B
proof_pile 12 B
pile_of_law 111 B
math_amps 7 B
edgarcorpus N/A
bulgarian_news 640 M
bulnc 4 B
openlegaldata 7 B
dewac 3 B
ga_bilingual_legistation 4 k
ga_universal_dependencies 40 k
hrwac 2 B
styria_news 432 M
croatian_news_engri 1 B
itwac 3 B
korpus_malti 816 M
sonar 746 M
cc_gigafida 260 M
academic_slovene_kas 3 B
slwac_web 3 B
sk_court_decisions 24 B
sk_laws 105 M
syn_v9 13 B
cs_en_parallel 473 M
danish_gigaword 2 B
danewsroom 835 M
dk_clarin 80 M
cabernet 599 M
norwegian_cc 11 B
pl_nkjp 3 M
pl_parliamentary_corpus 1 B
parlamento_pt 732 M
brwac 4 B
seimas_lt_en 12 k
state_related_latvian_web 52 k
greek_legal_code 80 M
greek_web_corpus 11 B
estonian_reference_corpus 481 M
enc2021 3 B
ekspress 723 M
euscrawl 831 M
spanish_legal 1 B
ylenews 286 M
sv_gigaword 528 M
srpkor 866 M
marcell_legislative_subcorpus_v2 1 B
uk_laws 2 B
eurlex 41 B
legal_mc4 28 B
wiki 21 B
wikibooks 313 M
wikiquote 247 M
wikinews 90 M
wikisource 2 B
wikivoyage 119 M
colossal_oscar 2 T
starcoder 212 B

数据集查看器

提供基于 Streamlit 的 Web 应用程序,用于浏览所有数据集及其包含的文本内容。

搜集汇总
数据集介绍
main_image_url
构建方式
llm-datasets数据集的构建方式主要通过整合多种语言和来源的数据,涵盖了从法律文本到新闻、代码等多种内容。数据集的构建过程包括下载、预处理和采样,通过脚本自动化执行,确保数据的质量和一致性。此外,数据集还支持多种输出格式,如JSONL和Parquet,以满足不同应用场景的需求。
特点
llm-datasets数据集的特点在于其多样性和广泛性,涵盖了多种语言和领域,包括法律、新闻、代码等。数据集支持多种处理功能,如文本提取、数据分割、统计分析等,便于用户根据需求进行定制化处理。此外,数据集还提供了可视化工具,使用户能够直观地浏览和分析数据内容。
使用方法
使用llm-datasets数据集时,用户可以通过命令行接口(CLI)执行多种操作,如下载数据、提取文本、生成训练集等。安装包支持pip安装,并提供了可选依赖项以增强功能。用户还可以通过提供的Web应用浏览数据集内容,进一步简化数据处理和分析的流程。
背景与挑战
背景概述
llm-datasets是由德国联邦经济事务和气候行动部(BMWK)通过OpenGPT-X项目资助开发的一个语言模型训练数据集集合。该数据集的创建旨在为语言模型的训练提供多样化的文本资源,涵盖多种语言和领域,如法律、新闻、科学等。其核心研究问题是如何有效地收集、预处理和利用大规模文本数据以提升语言模型的性能。该数据集的开发不仅推动了自然语言处理领域的研究进展,还为多语言模型的训练提供了宝贵的资源。
当前挑战
llm-datasets在构建过程中面临多项挑战。首先,数据集的多样性要求在不同语言和领域之间进行有效的平衡,确保数据的广泛覆盖和代表性。其次,文本数据的预处理和清洗过程复杂,需处理噪声、重复数据和格式不一致等问题。此外,数据集的规模庞大,如何高效地下载、存储和处理这些数据也是一个技术难题。最后,不同数据源的许可和版权问题增加了数据集管理的复杂性,需确保合规性。
常用场景
经典使用场景
llm-datasets 数据集在自然语言处理领域中被广泛应用于语言模型的训练。其经典使用场景包括大规模文本数据的预处理、分词、以及数据集的组合与采样。通过提供的命令行工具,用户可以轻松地下载、提取文本、并进行数据格式转换,如将数据转换为JSONL或Parquet格式。此外,该数据集支持多语言处理,涵盖了从代码到多国语言的广泛文本类型,为跨语言模型训练提供了丰富的资源。
实际应用
llm-datasets 数据集在实际应用中被广泛用于构建和优化各种语言模型,如聊天机器人、自动翻译系统、文本生成工具等。其多语言支持使得这些应用能够在全球范围内提供服务,而数据集的预处理和采样功能则确保了模型训练的高效性和灵活性。此外,通过提供的Web应用,用户可以直观地浏览和分析数据集内容,进一步提升了数据集在实际应用中的价值。
衍生相关工作
llm-datasets 数据集的发布和应用催生了一系列相关的经典工作。例如,基于该数据集的预处理和采样方法,研究人员开发了多种高效的文本处理工具和算法。此外,该数据集的多语言特性激发了跨语言模型训练的研究,推动了多语言自然语言处理技术的发展。通过与Huggingface Hub的集成,该数据集还促进了开源社区中语言模型资源的共享和协作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作