tlg-dataset

github2021-05-31 更新2024-05-31 收录

下载链接：

https://github.com/xvr-hlt/tlg-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于时间线生成问题的新闻文章数据集。主要数据集crowd.csv包含人群标注的文章，定义了黄金标准时间线由标记为有效和非常重要的文章组成。次要数据集google.csv包含通过谷歌新闻查询检索的实体链接文章。

A dataset of news articles for timeline generation problems. The primary dataset, crowd.csv, contains articles annotated by the crowd, defining a gold standard timeline composed of articles marked as valid and highly significant. The secondary dataset, google.csv, includes entity-linked articles retrieved through Google News queries.

创建时间：

2016-11-06

原始信息汇总

数据集概述

主要数据集：`crowd.csv`

组成：包含由众包标注的文章集合，用于构建实体的金标准时间线。
筛选标准：文章需被标记为valid和very important。
数据字段：
- entity：实体名称。
- URL：文章链接。
- valid：文章是否涉及实体的单一历史事件。
- valid_conf：对valid标注的置信度。
- importance：文章的重要性，分为not, somewhat, very。
- importance_conf：对importance标注的置信度。

辅助数据集：`google.csv`

组成：通过Google新闻查询获取的与实体相关联的文章集合。
数据字段：
- entity：实体名称。
- index：文章在相关Google新闻查询中的索引。
- URL：文章链接。
- published：文章发布日期。

搜集汇总

数据集介绍

构建方式

tlg-dataset的构建基于新闻文章的时间线生成问题，旨在为特定实体生成时间线。该数据集主要由两部分组成：主数据集`crowd.csv`和辅助数据集`google.csv`。主数据集通过众包标注的方式获取，标注者需判断文章是否与实体的单一历史事件相关，并评估其重要性。辅助数据集则通过查询Google新闻获取与实体相关的文章，并记录其发布时间。

特点

tlg-dataset的特点在于其标注的精细度和数据来源的多样性。主数据集中的每篇文章均经过众包标注，标注内容包括文章的有效性和重要性，并附有置信度评分，确保了数据的可靠性。辅助数据集则提供了与实体相关的新闻文章的时间信息，为时间线生成提供了丰富的上下文支持。这种双重数据来源的设计使得该数据集在时间线生成任务中具有较高的实用性和研究价值。

使用方法

使用tlg-dataset时，研究者可首先利用主数据集中的标注信息筛选出与实体历史事件相关且重要性较高的文章，作为时间线生成的核心数据。随后，结合辅助数据集中的时间信息，进一步优化时间线的准确性和完整性。该数据集适用于自然语言处理领域的时间线生成、事件抽取等任务，为相关研究提供了高质量的数据支持。

背景与挑战

背景概述

tlg-dataset 是一个专注于时间线生成问题的新闻文章数据集，由Holt等人在2016年提出。该数据集旨在通过众包标注的方式，为特定实体的历史事件构建标准时间线。主要数据集`crowd.csv`包含了标注为‘有效’和‘非常重要’的文章，这些文章被认为是构建黄金标准时间线的关键。数据集的设计和应用，为时间线生成领域提供了重要的数据支持，推动了该领域的研究进展。

当前挑战

tlg-dataset 面临的挑战主要包括两个方面。首先，时间线生成问题本身具有复杂性，如何从大量新闻文章中筛选出与特定实体相关且具有历史意义的事件，是一个极具挑战性的任务。其次，数据集的构建过程中，众包标注的质量和一致性也是一个关键问题。尽管通过置信度评分来评估标注的可靠性，但如何确保不同标注者之间的标注标准一致，仍然是一个需要解决的难题。此外，从Google News等外部来源获取的新闻文章，其时间戳的准确性和内容的完整性也对数据集的构建提出了挑战。

常用场景

经典使用场景

tlg-dataset主要用于时间线生成问题的研究，特别是在新闻文章的时间线构建方面。该数据集通过众包标注的方式，提供了大量与特定实体相关的新闻文章，这些文章被标注为‘有效’和‘非常重要’，从而为时间线生成提供了高质量的基准数据。研究人员可以利用这些数据来开发和评估时间线生成算法，确保生成的时间线既准确又具有代表性。

解决学术问题

tlg-dataset解决了时间线生成领域中的关键问题，即如何从大量新闻文章中筛选出与特定实体相关的重要事件，并按照时间顺序排列。通过提供众包标注的‘有效’和‘非常重要’的文章，该数据集为研究人员提供了一个可靠的基准，帮助他们评估和改进时间线生成算法的性能。这不仅推动了时间线生成技术的发展，还为相关领域的研究提供了重要的数据支持。

衍生相关工作

tlg-dataset的发布催生了一系列与时间线生成相关的研究工作。例如，基于该数据集的研究提出了多种时间线生成算法，这些算法在准确性和效率上都有显著提升。此外，该数据集还被用于评估自然语言处理技术在事件抽取和时间线排序方面的性能，推动了相关技术的进步。这些研究工作不仅丰富了时间线生成领域的研究成果，还为其他相关领域提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

tlg-dataset

数据集概述

主要数据集：crowd.csv

辅助数据集：google.csv

主要数据集：`crowd.csv`

辅助数据集：`google.csv`