Ti-Ma/TiMaGPT2-2022
收藏Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/TiMaGPT2-2022
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于截至2022年12月31日的历史数据构建的,数据来源包括WMT新闻数据集和Wikipedia。该数据集是用于训练基于GPT-2-small模型的训练数据集,并在Huggingface上提供。数据集的许可证与WMT新闻数据集相同,因为这是构建该训练数据集的许可中限制较多的一个。
该数据集是基于截至2022年12月31日的历史数据构建的,数据来源包括WMT新闻数据集和Wikipedia。该数据集是用于训练基于GPT-2-small模型的训练数据集,并在Huggingface上提供。数据集的许可证与WMT新闻数据集相同,因为这是构建该训练数据集的许可中限制较多的一个。
提供机构:
Ti-Ma
原始信息汇总
数据集概述
数据来源
- WMT News 数据集:https://data.statmt.org/news-crawl/en/
- Wikipedia
数据时间范围
- 数据截止日期:2022年12月31日
数据集用途
- 用于训练基于GPT-2-small的模型
数据集位置
- 可在Huggingface获取:TiMa/TiMaGPT2-2022
许可证
- 许可证名称:paracrawl-license
- 许可证详情:参见LICENSE文件
引用信息
- 论文标题:Time Machine GPT
- 作者:Drinkall, Felix and Zohren, Stefan and Pierrehumbert, Janet
- 出版信息:Findings of the Association for Computational Linguistics: NAACL 2024, June 2024, Association for Computational Linguistics



