Ti-Ma/TiMaGPT2-2021
收藏Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/TiMaGPT2-2021
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于截止日期为2021年12月31日的历史数据构建的,数据来源包括WMT News数据集和Wikipedia。该数据集是用于训练GPT-2-small模型的训练数据集,并在Huggingface平台上提供。许可证信息与WMT News数据集相同,因为这是构建该训练数据集时使用的限制性更强的许可证。
该数据集是基于截止日期为2021年12月31日的历史数据构建的,数据来源包括WMT News数据集和Wikipedia。该数据集是用于训练GPT-2-small模型的训练数据集,并在Huggingface平台上提供。许可证信息与WMT News数据集相同,因为这是构建该训练数据集时使用的限制性更强的许可证。
提供机构:
Ti-Ma
原始信息汇总
数据集概述
数据来源
- WMT News dataset: https://data.statmt.org/news-crawl/en/
- Wikipedia
数据时间范围
- 数据截止日期: 31-12-2021
数据用途
- 用于训练基于 GPT-2-small 的模型
数据集位置
- 在 Huggingface 上的位置: TiMa/TiMaGPT2-2021
许可证
- 许可证名称: paracrawl-license
- 许可证详情: 参考 LICENSE 文件
引用信息
-
引用文献:
@inproceedings{drinkall-tima-2024, title = "Time Machine GPT", author = "Drinkall, Felix and Zohren, Stefan and Pierrehumbert, Janet", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024", month = june, year = "2024", publisher = "Association for Computational Linguistics" }
搜集汇总
背景与挑战
背景概述
该数据集是为GPT-2-small模型训练而构建的,结合了WMT新闻和Wikipedia的历史数据,数据量庞大且时间覆盖广泛,适用于自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



