DWIE|信息提取数据集|文档分析数据集
收藏DWIE: 实体中心的多任务文档级信息抽取数据集
简介
DWIE(Deutsche Welle 信息抽取语料库)是一个新的文档级多任务信息抽取(IE)数据集。它结合了四个主要IE子任务:
- 命名实体识别:23,130个实体,分为311个多标签实体类型(标签)。
- 共指消解:43,373个实体提及,聚类为23,130个实体。
- 关系抽取:21,749个实体间的关系,分为65个多标签关系类型。
- 实体链接:命名实体链接到维基百科(20181115版本)。
DWIE被设计为一个实体中心的数据集,描述了整个文档级别上概念实体的交互和属性。这与目前主导的提及驱动方法形成对比,后者从单个句子中检测和分类命名实体提及开始。数据集从新闻平台(Deutsche Welle的英文在线内容)随机抽样,并生成标注方案以覆盖这些内容。
数据集下载和预处理
公开可用的DWIE标注位于data/annos
目录中。要获取每个标注文章的内容,需要运行以下脚本:
bash
pip install -r requirements_download_dataset.txt
python src/dwie_download.py
该脚本将使用Deutsche Welle网络服务检索文章内容,将其添加到标注文件中,并保存在data/annos_with_content
目录中。
数据集格式
data/annos_with_content
目录中的每个标注文章位于不同的.json文件中,包含以下键:
id
:文章的唯一标识符。content
:使用src/dwie_download.py
脚本下载的文章文本内容。tags
:用于区分train
和test
文档集。mentions
:文章中的实体提及列表,每个提及包含以下键:begin
:提及的第一个字符的偏移量(在content
字段内)。end
:提及的最后一个字符的偏移量(在content
字段内)。text
:实体提及的文本表示。concept
:表示实体提及的实体ID(文章中的多个实体提及可以指向同一个concept
)。candidates
:候选维基百科链接。scores
:候选实体链接在维基百科语料库上的先验概率。
concepts
:聚类每个实体提及的实体列表,每个实体包含以下键:concept
:文档级别的唯一实体ID。text
:属于该实体的最长提及的文本。keyword
:指示实体是否为关键词。count
:文档中属于该实体的提及数量。link
:实体链接到维基百科。tags
:与实体关联的多标签分类标签。
relations
:实体间(concepts
)的文档级别关系列表,每个关系包含以下键:s
:关系中的主体实体ID。p
:定义关系名称的谓词(例如,"citizen_of","member_of"等)。o
:关系中的客体实体ID。
iptc
:多标签文章IPTC分类代码。
数据集使用
如果您在自己的研究中使用此代码/数据集,请引用以下文献:
@article{ZAPOROJETS2021102563, title = {{DWIE}: An entity-centric dataset for multi-task document-level information extraction}, journal = {Information Processing & Management}, volume = {58}, number = {4}, pages = {102563}, year = {2021}, issn = {0306-4573}, doi = {https://doi.org/10.1016/j.ipm.2021.102563}, url = {https://www.sciencedirect.com/science/article/pii/S0306457321000662}, author = {Klim Zaporojets and Johannes Deleu and Chris Develder and Thomas Demeester} }
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
NHANES
NHANES(National Health and Nutrition Examination Survey)是美国国家健康与营养调查的数据集,旨在评估美国人口的健康和营养状况。数据集包括健康检查、实验室测试、问卷调查等多方面的信息。
www.cdc.gov 收录
Hang Seng Index
恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。
www.hsi.com.hk 收录
海天瑞声-超大规模中文多领域高质量多轮对话语料库
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。
魔搭社区 收录
ERIC (Education Resources Information Center)
ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。
eric.ed.gov 收录