five

Ti-Ma/TiMaGPT2-2012

收藏
Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Ti-Ma/TiMaGPT2-2012
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集使用了截至2012年12月31日的历史数据,主要来源于WMT新闻数据集和维基百科。它是用于训练GPT-2-small模型的训练数据集,并且使用了与WMT新闻数据集相同的许可证。

该数据集使用了截至2012年12月31日的历史数据,主要来源于WMT新闻数据集和维基百科。它是用于训练GPT-2-small模型的训练数据集,并且使用了与WMT新闻数据集相同的许可证。
提供机构:
Ti-Ma
原始信息汇总

数据集概述

数据来源

  • 数据集由以下两个来源的历史数据构成,截止日期为2012年12月31日:
    • WMT News 数据集(来源:https://data.statmt.org/news-crawl/en/)
    • Wikipedia

数据用途

  • 该数据集是用于训练基于GPT-2-small模型的训练数据集。

数据集位置

  • 数据集可在Huggingface上获取,具体位置为:"TiMa/TiMaGPT2-2012"。

许可信息

  • 数据集采用与WMT News数据集相同的许可(Paracrawl许可),该许可是构成此训练数据集的各数据集中较为限制性的许可。

引用信息

  • 使用此数据集时,请引用以下论文:
    • 标题:Time Machine GPT
    • 作者:Drinkall, Felix and Zohren, Stefan and Pierrehumbert, Janet
    • 出版信息:Findings of the Association for Computational Linguistics: NAACL 2024, June 2024, Association for Computational Linguistics
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作