llm-datasets
收藏github2024-05-01 更新2024-05-31 收录
下载链接:
https://github.com/malteos/llm-datasets
下载链接
链接失效反馈官方服务:
资源简介:
llm-datasets是一个用于语言模型训练的数据集集合,包括下载、预处理和抽样脚本。
The llm-datasets is a collection of datasets designed for training language models, encompassing download, preprocessing, and sampling scripts.
创建时间:
2023-09-19
原始信息汇总
数据集概述
数据集描述
llm-datasets 是一个用于语言模型训练的数据集集合,包括下载、预处理和采样脚本。
快速开始
安装
使用 pip 安装 llm-datasets 包:
bash
pip install llm-datasets
若需要特定功能,如文本提取,可安装额外依赖: bash pip install llm-datasets[datasets]
可用命令
llm-datasets 提供命令行界面(CLI),支持多种处理和实用功能,如:
chunkify: 将数据集分割成等大小的文件块。extract_text: 从原始数据集中提取文本。hf_upload: 上传文件或目录到 Huggingface Hub。
下载和文本提取
下载并提取数据集的纯文本,命令如下: bash llm-datasets extract_text $DATASET_ID $OUTPUT_DIR
默认输出为 JSONL 文件,可通过 --output_format 参数更改输出格式。
可用数据集
使用以下命令打印所有可用数据集列表: bash llm-datasets print_stats --print_output md
按语言统计的令牌数
| Language | Tokens |
|---|---|
| bg | 31 B |
| ca | 6 B |
| code | 212 B |
| cs | 42 B |
| da | 13 B |
| de | 160 B |
| el | 63 B |
| en | 1 T |
| es | 101 B |
| et | 9 B |
| eu | 1 B |
| fi | 19 B |
| fr | 84 B |
| ga | 274 M |
| gl | 231 M |
| hr | 11 B |
| hu | 52 B |
| it | 61 B |
| lt | 7 B |
| lv | 5 B |
| mt | 4 B |
| nl | 44 B |
| nn | 76 M |
| no | 13 B |
| pl | 45 B |
| pt | 46 B |
| ro | 18 B |
| sh | 184 M |
| sk | 32 B |
| sl | 13 B |
| sr | 11 B |
| sv | 19 B |
| uk | 56 B |
按来源统计的令牌数
| Source | Tokens |
|---|---|
| curlicat | 963 M |
| macocu | 74 B |
| redpajama | 44 B |
| wura | N/A |
| wikihow | 99 M |
| pes2o | 57 B |
| proof_pile | 12 B |
| pile_of_law | 111 B |
| math_amps | 7 B |
| edgarcorpus | N/A |
| bulgarian_news | 640 M |
| bulnc | 4 B |
| openlegaldata | 7 B |
| dewac | 3 B |
| ga_bilingual_legistation | 4 k |
| ga_universal_dependencies | 40 k |
| hrwac | 2 B |
| styria_news | 432 M |
| croatian_news_engri | 1 B |
| itwac | 3 B |
| korpus_malti | 816 M |
| sonar | 746 M |
| cc_gigafida | 260 M |
| academic_slovene_kas | 3 B |
| slwac_web | 3 B |
| sk_court_decisions | 24 B |
| sk_laws | 105 M |
| syn_v9 | 13 B |
| cs_en_parallel | 473 M |
| danish_gigaword | 2 B |
| danewsroom | 835 M |
| dk_clarin | 80 M |
| cabernet | 599 M |
| norwegian_cc | 11 B |
| pl_nkjp | 3 M |
| pl_parliamentary_corpus | 1 B |
| parlamento_pt | 732 M |
| brwac | 4 B |
| seimas_lt_en | 12 k |
| state_related_latvian_web | 52 k |
| greek_legal_code | 80 M |
| greek_web_corpus | 11 B |
| estonian_reference_corpus | 481 M |
| enc2021 | 3 B |
| ekspress | 723 M |
| euscrawl | 831 M |
| spanish_legal | 1 B |
| ylenews | 286 M |
| sv_gigaword | 528 M |
| srpkor | 866 M |
| marcell_legislative_subcorpus_v2 | 1 B |
| uk_laws | 2 B |
| eurlex | 41 B |
| legal_mc4 | 28 B |
| wiki | 21 B |
| wikibooks | 313 M |
| wikiquote | 247 M |
| wikinews | 90 M |
| wikisource | 2 B |
| wikivoyage | 119 M |
| colossal_oscar | 2 T |
| starcoder | 212 B |
数据集查看器
提供基于 Streamlit 的 Web 应用程序,用于浏览所有数据集及其包含的文本内容。
搜集汇总
数据集介绍

构建方式
llm-datasets数据集的构建方式主要通过整合多种语言和来源的数据,涵盖了从法律文本到新闻、代码等多种内容。数据集的构建过程包括下载、预处理和采样,通过脚本自动化执行,确保数据的质量和一致性。此外,数据集还支持多种输出格式,如JSONL和Parquet,以满足不同应用场景的需求。
特点
llm-datasets数据集的特点在于其多样性和广泛性,涵盖了多种语言和领域,包括法律、新闻、代码等。数据集支持多种处理功能,如文本提取、数据分割、统计分析等,便于用户根据需求进行定制化处理。此外,数据集还提供了可视化工具,使用户能够直观地浏览和分析数据内容。
使用方法
使用llm-datasets数据集时,用户可以通过命令行接口(CLI)执行多种操作,如下载数据、提取文本、生成训练集等。安装包支持pip安装,并提供了可选依赖项以增强功能。用户还可以通过提供的Web应用浏览数据集内容,进一步简化数据处理和分析的流程。
背景与挑战
背景概述
llm-datasets是由德国联邦经济事务和气候行动部(BMWK)通过OpenGPT-X项目资助开发的一个语言模型训练数据集集合。该数据集的创建旨在为语言模型的训练提供多样化的文本资源,涵盖多种语言和领域,如法律、新闻、科学等。其核心研究问题是如何有效地收集、预处理和利用大规模文本数据以提升语言模型的性能。该数据集的开发不仅推动了自然语言处理领域的研究进展,还为多语言模型的训练提供了宝贵的资源。
当前挑战
llm-datasets在构建过程中面临多项挑战。首先,数据集的多样性要求在不同语言和领域之间进行有效的平衡,确保数据的广泛覆盖和代表性。其次,文本数据的预处理和清洗过程复杂,需处理噪声、重复数据和格式不一致等问题。此外,数据集的规模庞大,如何高效地下载、存储和处理这些数据也是一个技术难题。最后,不同数据源的许可和版权问题增加了数据集管理的复杂性,需确保合规性。
常用场景
经典使用场景
llm-datasets 数据集在自然语言处理领域中被广泛应用于语言模型的训练。其经典使用场景包括大规模文本数据的预处理、分词、以及数据集的组合与采样。通过提供的命令行工具,用户可以轻松地下载、提取文本、并进行数据格式转换,如将数据转换为JSONL或Parquet格式。此外,该数据集支持多语言处理,涵盖了从代码到多国语言的广泛文本类型,为跨语言模型训练提供了丰富的资源。
实际应用
llm-datasets 数据集在实际应用中被广泛用于构建和优化各种语言模型,如聊天机器人、自动翻译系统、文本生成工具等。其多语言支持使得这些应用能够在全球范围内提供服务,而数据集的预处理和采样功能则确保了模型训练的高效性和灵活性。此外,通过提供的Web应用,用户可以直观地浏览和分析数据集内容,进一步提升了数据集在实际应用中的价值。
衍生相关工作
llm-datasets 数据集的发布和应用催生了一系列相关的经典工作。例如,基于该数据集的预处理和采样方法,研究人员开发了多种高效的文本处理工具和算法。此外,该数据集的多语言特性激发了跨语言模型训练的研究,推动了多语言自然语言处理技术的发展。通过与Huggingface Hub的集成,该数据集还促进了开源社区中语言模型资源的共享和协作。
以上内容由遇见数据集搜集并总结生成



