five

TAP-DLND 1.0

收藏
arXiv2018-02-20 更新2024-06-21 收录
下载链接:
http://www.iitp.ac.in/ai-nlp-ml/resources.html
下载链接
链接失效反馈
官方服务:
资源简介:
TAP-DLND 1.0是由印度理工学院巴特那分校创建的一个用于文档级新颖性检测的数据集,包含6109个文档,涵盖了十个不同的新闻类别。该数据集通过事件特定的网络爬虫定期收集新闻文档,并由专业标注人员进行标注,以区分新颖和非新颖文档。数据集的创建旨在为新颖性检测技术提供基准,并解决信息重复问题,特别是在语义和语用层面。该数据集的应用领域包括文档摘要、新闻事件追踪和学术文章影响预测等,旨在通过检测文档中的新颖信息,提高信息处理的效率和准确性。

TAP-DLND 1.0 is a document-level novelty detection dataset developed by the Indian Institute of Technology Patna. It contains 6109 documents spanning ten distinct news categories. This dataset is compiled by periodically collecting news documents via event-specific web crawlers, and annotated by professional annotators to distinguish novel and non-novel documents. The dataset is created to provide a benchmark for novelty detection technologies and address the issue of information redundancy, especially at the semantic and pragmatic levels. Its application fields include document summarization, news event tracking, academic article impact prediction and other scenarios, aiming to improve the efficiency and accuracy of information processing by detecting novel information within documents.
提供机构:
印度理工学院巴特那分校
创建时间:
2018-02-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作