five

tacred

收藏
huggingface.co2025-03-26 收录
下载链接:
https://huggingface.co/datasets/DFKI-SLT/tacred
下载链接
链接失效反馈
官方服务:
资源简介:
TACRED is a large-scale relation extraction dataset with 106,264 examples built over newswire and web text from the corpus used in the yearly TAC Knowledge Base Population (TAC KBP) challenges. Examples in TACRED cover 41 relation types as used in the TAC KBP challenges (e.g., per:schools_attended and org:members) or are labeled as no_relation if no defined relation is held. These examples are created by combining available human annotations from the TAC KBP challenges and crowdsourcing. Please see our EMNLP paper, or our EMNLP slides for full details. Note: There is currently a label-corrected version of the TACRED dataset, which you should consider using instead of the original version released in 2017. For more details on this new version, see the TACRED Revisited paper published at ACL 2020. Note 2: This Datasetreader changes the offsets of the following fields, to conform with standard Python usage (see #_generate_examples()): - subj_end to subj_end + 1 (make end offset exclusive) - obj_end to obj_end + 1 (make end offset exclusive) - stanford_head to stanford_head - 1 (make head offsets 0-based)

TACRED 是一个大型关系抽取数据集,包含 106,264 个示例,这些示例基于用于年度 TAC 知识库人口(TAC KBP)挑战的通讯社和网页文本构建。TACRED 中的示例涵盖了 TAC KBP 挑战中使用的 41 种关系类型(例如,per:schools_attended 和 org:members),或者如果不存在定义的关系,则标记为 no_relation。这些示例通过结合来自 TAC KBP 挑战的可用人工标注和众包创建。请参阅我们的 EMNLP 论文或 EMNLP 演示文稿以获取详细信息。注意:目前存在一个标签校正版的 TACRED 数据集,您应考虑使用此版本而非 2017 年发布的原始版本。有关此新版本的更多详细信息,请参阅于 ACL 2020 发布的 TACRED Revisited 论文。注意 2:Datasetreader 对以下字段的偏移进行了更改,以符合标准的 Python 使用规范(参见 #_generate_examples()):- subj_end 更改为 subj_end + 1(使结束偏移为排他性);- obj_end 更改为 obj_end + 1(使结束偏移为排他性);- stanford_head 更改为 stanford_head - 1(使头偏移为 0 基数)。
提供机构:
huggingface.co
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作