Locutusque/TM-DATA-V2
收藏Hugging Face2024-05-04 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/TM-DATA-V2
下载链接
链接失效反馈官方服务:
资源简介:
TM-DATA-V2数据集用于预训练TinyMistral-248M-V3语言模型,包含约1000万份文本文档,来源包括教科书、网页、维基百科、论文等。建议在预训练语言模型时对数据集进行洗牌,以防止灾难性遗忘。数据来源包括TM-DATA、UltraTextbooks-2.0、Dolma、Orca和open-web-math。
TM-DATA-V2数据集用于预训练TinyMistral-248M-V3语言模型,包含约1000万份文本文档,来源包括教科书、网页、维基百科、论文等。建议在预训练语言模型时对数据集进行洗牌,以防止灾难性遗忘。数据来源包括TM-DATA、UltraTextbooks-2.0、Dolma、Orca和open-web-math。
提供机构:
Locutusque
原始信息汇总
数据集概述
数据集名称
TM-DATA-V2
数据集特征
- id: string
- system_prompt: string
- question: string
- response: string
- text: string
- source: string
- index_level_0: int64
- url: string
- date: string
- metadata: string
数据集划分
- train:
- num_examples: 10226100
- num_bytes: 56063611429
数据集大小
- download_size: 28370577893
- dataset_size: 56063611429
数据集配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
许可证
odc-by
任务类别
- text-generation
语言
- en
标签
- medical
- chemistry
- biology
- webdataset
大小类别
- 10M<n<100M
数据来源
- TM-DATA
- UltraTextbooks-2.0
- Dolma
- Orca
- open-web-math



