five

WIKITABLET

收藏
arXiv2021-06-02 更新2024-06-21 收录
下载链接:
https://github.com/mingdachen/WikiTableT
下载链接
链接失效反馈
官方服务:
资源简介:
WIKITABLET是一个大规模的数据到文本生成数据集,由芝加哥丰田技术研究所创建。该数据集将维基百科文章的章节与其相应的表格数据和各种元数据配对,包含数百万实例,覆盖广泛的主题和生成任务类型。数据集的创建过程涉及从维基数据表、信息框、超链接和命名实体识别等多个资源收集数据,并通过多种过滤确保数据质量。WIKITABLET的应用领域包括辅助写作技术,如帮助学生在撰写论文时从多种事实来源中提取信息,也可作为其他数据到文本生成数据集的预训练数据。

WIKITABLET is a large-scale data-to-text generation dataset created by the Toyota Technological Institute at Chicago. This dataset pairs sections of Wikipedia articles with their corresponding tabular data and various metadata, containing millions of instances covering a wide range of topics and generation task types. The dataset creation process involves collecting data from multiple resources including Wikipedia tables, infoboxes, hyperlinks, and named entity recognition-related resources, and ensures data quality via multiple filtering steps. Application scenarios of WIKITABLET include assistive writing technologies: for example, helping students extract information from multiple factual sources when writing papers, and it can also serve as pre-training data for other data-to-text generation datasets.
提供机构:
芝加哥丰田技术研究所
创建时间:
2020-12-30
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作