Ti-Ma/TiMaGPT2-2021

Name: Ti-Ma/TiMaGPT2-2021
Creator: Ti-Ma
Published: 2024-04-26 09:57:23
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/Ti-Ma/TiMaGPT2-2021

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于截止日期为2021年12月31日的历史数据构建的，数据来源包括WMT News数据集和Wikipedia。该数据集是用于训练GPT-2-small模型的训练数据集，并在Huggingface平台上提供。许可证信息与WMT News数据集相同，因为这是构建该训练数据集时使用的限制性更强的许可证。

提供机构：

Ti-Ma

原始信息汇总

数据集概述

数据来源

WMT News dataset: https://data.statmt.org/news-crawl/en/
Wikipedia

数据时间范围

数据截止日期: 31-12-2021

数据用途

用于训练基于 GPT-2-small 的模型

数据集位置

在 Huggingface 上的位置: TiMa/TiMaGPT2-2021

许可证

许可证名称: paracrawl-license
许可证详情: 参考 LICENSE 文件

引用信息

引用文献:

@inproceedings{drinkall-tima-2024, title = "Time Machine GPT", author = "Drinkall, Felix and Zohren, Stefan and Pierrehumbert, Janet", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024", month = june, year = "2024", publisher = "Association for Computational Linguistics" }

搜集汇总

背景与挑战

背景概述

该数据集是为GPT-2-small模型训练而构建的，结合了WMT新闻和Wikipedia的历史数据，数据量庞大且时间覆盖广泛，适用于自然语言处理任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集