tlg-dataset
收藏github2021-05-31 更新2024-05-31 收录
下载链接:
https://github.com/xavi-ai/tlg-dataset
下载链接
链接失效反馈官方服务:
资源简介:
用于时间线生成问题的新闻文章数据集。主要数据集crowd.csv包含人群注释的文章,定义黄金标准时间线由标记为有效和非常重要的文章组成。次要数据集google.csv包含通过查询Google新闻获取的实体链接文章。
A dataset of news articles for timeline generation problems. The primary dataset, crowd.csv, contains articles annotated by the crowd, defining the gold standard timeline composed of articles labeled as valid and highly significant. The secondary dataset, google.csv, includes entity-linked articles obtained by querying Google News.
创建时间:
2016-11-06
原始信息汇总
tlg-dataset 数据集概述
数据集描述
主要数据集:crowd.csv
- 组成:包含一组针对实体的众包标注文章。
- 定义:黄金标准时间线由标记为valid和very important的文章组成。
- 列信息:
- entity:实体名称。
- URL:文章URL。
- valid:众包标注标签,表示文章是否关注实体历史中的单一事件。
- valid_conf:上述标注的置信度。
- importance:众包标注标签,重要性分为not, somewhat, very。
- importance_conf:上述标注的置信度。
辅助数据集:google.csv
- 组成:由通过Google新闻查询获取的实体链接文章组成。
- 列信息:
- entity:实体名称。
- index:文章在相关Google新闻查询中的索引。
- URL:文章URL。
- published:发布日期。
搜集汇总
数据集介绍

构建方式
tlg-dataset的构建基于新闻文章的时间线生成问题,主要数据集`crowd.csv`通过众包标注的方式收集。标注者根据文章是否涉及实体历史中的单一事件(valid)以及文章的重要性(importance)进行标注,并提供了相应的置信度(valid_conf和importance_conf)。次要数据集`google.csv`则通过查询Google新闻获取与实体相关的文章,并记录了文章的发布时间。
特点
该数据集的特点在于其标注的多样性和细致性。主要数据集不仅标注了文章的有效性,还进一步区分了文章的重要性等级,并提供了置信度信息,便于后续分析。次要数据集则通过Google新闻的查询结果,提供了与实体相关的新闻文章及其发布时间,为时间线生成提供了丰富的上下文信息。
使用方法
使用tlg-dataset时,研究者可以通过主要数据集中的标注信息筛选出有效且重要的文章,构建实体的时间线。次要数据集则可用于补充时间线的细节,特别是通过文章的发布时间来调整时间线的顺序。结合两个数据集,研究者能够更全面地分析实体的历史事件,并生成准确的时间线。
背景与挑战
背景概述
tlg-dataset是一个专注于时间线生成问题的新闻文章数据集,由Holt等人在2016年提出。该数据集旨在通过众包标注的方式,为特定实体的历史事件构建标准时间线。数据集包含两个主要部分:主数据集`crowd.csv`和辅助数据集`google.csv`。主数据集通过标注文章的‘有效性’和‘重要性’来定义黄金标准时间线,而辅助数据集则通过查询Google新闻获取与实体相关的文章。这一数据集为时间线生成领域的研究提供了重要的数据支持,推动了自然语言处理和信息检索领域的发展。
当前挑战
tlg-dataset在解决时间线生成问题时面临多重挑战。首先,众包标注的质量控制是一个关键问题,标注的一致性和准确性直接影响时间线的可靠性。其次,新闻文章的多样性和时效性增加了数据集的复杂性,如何从大量新闻中筛选出与特定实体相关的事件信息是一个技术难题。此外,构建过程中还需处理数据冗余和噪声问题,确保时间线的简洁性和准确性。这些挑战不仅考验了数据处理技术,也对时间线生成算法的鲁棒性提出了更高要求。
常用场景
经典使用场景
tlg-dataset主要用于时间线生成问题的研究,特别是在新闻文章的时间线构建领域。该数据集通过众包标注的方式,提供了大量与特定实体相关的新闻文章,这些文章被标注为‘有效’和‘非常重要’,从而为研究者提供了一个标准化的时间线生成基准。
实际应用
在实际应用中,tlg-dataset可以用于新闻聚合平台、历史事件分析工具以及社交媒体监控系统。通过利用该数据集,这些系统能够自动生成与特定实体相关的时间线,帮助用户快速了解事件的发展脉络,提升信息获取的效率和准确性。
衍生相关工作
tlg-dataset的发布催生了一系列相关研究,特别是在时间线生成和事件抽取领域。许多研究者基于该数据集提出了新的算法和模型,如基于深度学习的时间线生成方法、事件重要性排序模型等。这些工作不仅丰富了时间线生成的研究内容,也为相关领域的进一步发展提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



