Ti-Ma/TiMaGPT2-2018
收藏Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/TiMaGPT2-2018
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于截至2018年12月31日的历史数据构建的,数据来源包括WMT新闻数据集和Wikipedia。该数据集是用于训练GPT-2-small模型的训练数据集,并且在Huggingface平台上可用。数据集的许可与WMT新闻数据集相同,因为这是构建该训练数据集的两个数据集中限制较多的许可。
该数据集是基于截至2018年12月31日的历史数据构建的,数据来源包括WMT新闻数据集和Wikipedia。该数据集是用于训练GPT-2-small模型的训练数据集,并且在Huggingface平台上可用。数据集的许可与WMT新闻数据集相同,因为这是构建该训练数据集的两个数据集中限制较多的许可。
提供机构:
Ti-Ma
原始信息汇总
数据集概述
数据来源
- 数据集由WMT News数据集(https://data.statmt.org/news-crawl/en/)和Wikipedia的历史数据构成,截止日期为2018年12月31日。
数据用途
- 该数据集是为训练基于GPT-2-small模型的训练数据集,可在Huggingface上获取,链接为:"TiMa/TiMaGPT2-2018"。
许可证
- 数据集遵循与WMT News数据集相同的许可证(https://data.statmt.org/news-crawl/README),该许可证为构成此训练数据集的所有数据源中较为严格的许可证。
引用要求
- 在使用此数据集进行任何下游应用时,请引用以下论文:
- 标题:Time Machine GPT
- 作者:Drinkall, Felix and Zohren, Stefan and Pierrehumbert, Janet
- 出版信息:Findings of the Association for Computational Linguistics: NAACL 2024, June 2024, Association for Computational Linguistics



