five

BIGPATENT

收藏
arXiv2019-06-10 更新2024-07-25 收录
下载链接:
https://evasharma.github.io/bigpatent/
下载链接
链接失效反馈
官方服务:
资源简介:
BIGPATENT是由东北大学计算机科学学院和腾讯AI Lab合作创建的大型数据集,包含134万条美国专利文档及其人工编写的摘要。该数据集旨在解决现有文本摘要数据集中摘要内容结构单一、关键信息分布不均和摘要中直接提取文本段落过长的问题。BIGPATENT通过提供更丰富的语篇结构、均匀分布的关键内容和更少的直接提取片段,推动了文本摘要研究向更复杂的语篇结构和更高压缩比的抽象摘要生成方向发展。数据集主要应用于训练和评估抽象和连贯的文本摘要系统,以解决当前模型在理解和生成摘要方面的局限性。

BIGPATENT is a large-scale dataset co-created by the School of Computer Science of Northeastern University and Tencent AI Lab, which contains 1.34 million U.S. patent documents and their manually written summaries. This dataset aims to resolve three key limitations of existing text summarization datasets: monotonous summary structure, uneven distribution of critical information, and excessively long directly-extracted text segments within their summaries. By offering richer discourse structures, uniformly distributed key content, and fewer directly-extracted fragments, BIGPATENT advances text summarization research toward more complex discourse structures and abstractive summarization generation with higher compression ratios. The dataset is primarily used for training and evaluating abstractive and coherent text summarization systems, to address the current limitations of existing models in understanding and generating summaries.
提供机构:
东北大学计算机科学学院
创建时间:
2019-06-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作