five

relbert/analogy_questions_private

收藏
Hugging Face2023-04-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/relbert/analogy_questions_private
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Analogy Questions,主要用于词类比问题。它包含了5种不同的词类比问题,这些问题是基于Analogy Language Model的研究。此外,数据集还包括了一些额外的类比问题。数据集的结构包括数据实例的示例,展示了如何表示测试数据。数据集的许可证为CC-BY-NC-4.0,允许学术研究使用,但禁止商业用途。

该数据集名为Analogy Questions,主要用于词类比问题。它包含了5种不同的词类比问题,这些问题是基于Analogy Language Model的研究。此外,数据集还包括了一些额外的类比问题。数据集的结构包括数据实例的示例,展示了如何表示测试数据。数据集的许可证为CC-BY-NC-4.0,允许学术研究使用,但禁止商业用途。
提供机构:
relbert
原始信息汇总

数据集卡片 for "relbert/analogy_questions"

数据集描述

  • 数据集名称: Analogy Questions

数据集概述

该数据集包含5种不同的词类比问题,用于类比语言模型

  • 原始类比问题
名称 大小 (valid/test) 选项数量 关系组数量 原始参考文献
sat_full -/374 5 2 Turney (2005)
sat 37/337 5 2 Turney (2005)
u2 24/228 5,4,3 9 EnglishForEveryone
u4 48/432 5,4,3 5 EnglishForEveryone
google 50/500 4 2 Mikolov et al., (2013)
bats 199/1799 4 3 Gladkova et al., (2016)
  • 额外类比问题
名称 大小 (valid/test) 选项数量 (valid/test) 关系组数量 (valid/test) 原始参考文献
semeval2012_relational_similarity 79/- 3/- 79/- relbert/semeval2012_relational_similarity
t_rex_relational_similarity 496/183 74/48 60/19 relbert/t_rex_relational_similarity
conceptnet_relational_similarity 1112/1192 19/17 18/16 relbert/conceptnet_relational_similarity
nell_relational_similarity 400/600 5/7 4/6 relbert/nell_relational_similarity
scan 178/1616 3,36,136,10,45,78,15,21,55,120,153,91,28/3,36,136,10,45,78,15,21,55,120,153,91,28 2/2 relbert/scientific_and_creative_analogy

数据集结构

数据实例

test 的一个示例如下:

{ "stem": ["raphael", "painter"], "answer": 2, "choice": [["andersen", "plato"], ["reading", "berkshire"], ["marx", "philosopher"], ["tolstoi", "edison"]] }

stem 是查询词对,choice 包含词对候选,answer 指示正确候选的索引,从 0 开始。除了 Google 数据集外,所有数据均为小写。

引用信息

@inproceedings{ushio-etal-2021-bert-is, title ={{BERT} is to {NLP} what {A}lex{N}et is to {CV}: {C}an {P}re-{T}rained {L}anguage {M}odels {I}dentify {A}nalogies?}, author={Ushio, Asahi and Espinosa-Anke, Luis and Schockaert, Steven and Camacho-Collados, Jose}, booktitle={Proceedings of the {ACL}-{IJCNLP} 2021 Main Conference}, year={2021}, publisher={Association for Computational Linguistics} }

许可证

所有资源的许可证为 CC-BY-NC-4.0,因此它们可自由用于学术目的或个人研究,但限制用于商业用途。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作