five

community-datasets/definite_pronoun_resolution|词义消歧数据集|自然语言处理数据集

收藏
hugging_face2024-06-24 更新2024-06-15 收录
词义消歧
自然语言处理
下载链接:
https://hf-mirror.com/datasets/community-datasets/definite_pronoun_resolution
下载链接
链接失效反馈
资源简介:
该数据集名为Definite Pronoun Resolution Dataset,主要用于代词消解任务。数据集由30名本科生创建,涵盖了从真实事件到电影情节的多种主题,反映了90年代美国流行文化。每个标注示例包含四行:第一行是句子,第二行是目标代词,第三行是两个候选先行词,第四行是正确的先行词。如果目标代词在句子中出现多次,则其第一次出现是需要消解的。数据集的配置为plain_text,包含train和test两个分割,分别有1322和564个样本。数据集的下载大小为0.23 MB,生成大小为0.24 MB,总磁盘使用量为0.47 MB。
提供机构:
community-datasets
原始信息汇总

Definite Pronoun Resolution Dataset 数据集概述

数据集描述

数据集摘要

该数据集由30名学生从一位作者的本科课程中收集。这些句子对涵盖了从真实事件(如伊朗计划攻击沙特驻美国大使)到电影中的事件/角色(如蝙蝠侠)和纯虚构情景,主要反映了90年代初出生的美国孩子所感知的流行文化。每个标注的示例包含四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选先行词,第四行包含正确的先行词。如果目标代词在句子中出现多次,则其第一次出现是需要解析的。

支持的任务和排行榜

更多信息需补充

语言

更多信息需补充

数据集结构

数据实例

plain_text

一个训练集的示例如下: json { "candidates": ["coreference resolution", "chunking"], "label": 0, "pronoun": "it", "sentence": "There is currently more work on coreference resolution than on chunking because it is a problem that is still far from being solved." }

数据字段

所有拆分中的数据字段相同。

plain_text

  • sentence: 字符串特征。
  • pronoun: 字符串特征。
  • candidates: 字符串列表特征。
  • label: 分类标签,可能的值包括 01

数据拆分

name train test
plain_text 1322 564

数据集创建

策划理由

更多信息需补充

源数据

初始数据收集和规范化

更多信息需补充

源语言生产者是谁?

更多信息需补充

标注

标注过程

更多信息需补充

标注者是谁?

更多信息需补充

个人和敏感信息

更多信息需补充

使用数据的注意事项

数据集的社会影响

更多信息需补充

偏见的讨论

更多信息需补充

其他已知限制

更多信息需补充

附加信息

数据集策展人

更多信息需补充

许可信息

更多信息需补充

引用信息

@inproceedings{rahman2012resolving, title={Resolving complex cases of definite pronouns: the winograd schema challenge}, author={Rahman, Altaf and Ng, Vincent}, booktitle={Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning}, pages={777--789}, year={2012}, organization={Association for Computational Linguistics} }

贡献

感谢 @thomwolf, @lewtun, @patrickvonplaten 添加此数据集。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

UCM-Captions, Sydney-Captions, RSICD, RSITMD, NWPU-Captions, RS5M, SkyScript

UCM-Captions: 包含613张图像,分辨率为256×256。Sydney-Captions: 包含2,100张图像,分辨率为500×500。RSICD: 包含10,921张图像,分辨率为224×224。RSITMD: 包含4,743张图像,分辨率为256×256。NWPU-Captions: 包含31,500张图像,分辨率为256×256。RS5M: 包含超过500万张图像,分辨率为所有可能的分辨率。SkyScript: 包含520万张图像,分辨率为所有可能的分辨率。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录