relbert/analogy_questions_private
收藏数据集卡片 for "relbert/analogy_questions"
数据集描述
- 数据集名称: Analogy Questions
数据集概述
该数据集包含5种不同的词类比问题,用于类比语言模型。
- 原始类比问题
| 名称 | 大小 (valid/test) | 选项数量 | 关系组数量 | 原始参考文献 |
|---|---|---|---|---|
sat_full |
-/374 | 5 | 2 | Turney (2005) |
sat |
37/337 | 5 | 2 | Turney (2005) |
u2 |
24/228 | 5,4,3 | 9 | EnglishForEveryone |
u4 |
48/432 | 5,4,3 | 5 | EnglishForEveryone |
google |
50/500 | 4 | 2 | Mikolov et al., (2013) |
bats |
199/1799 | 4 | 3 | Gladkova et al., (2016) |
- 额外类比问题
| 名称 | 大小 (valid/test) | 选项数量 (valid/test) | 关系组数量 (valid/test) | 原始参考文献 |
|---|---|---|---|---|
semeval2012_relational_similarity |
79/- | 3/- | 79/- | relbert/semeval2012_relational_similarity |
t_rex_relational_similarity |
496/183 | 74/48 | 60/19 | relbert/t_rex_relational_similarity |
conceptnet_relational_similarity |
1112/1192 | 19/17 | 18/16 | relbert/conceptnet_relational_similarity |
nell_relational_similarity |
400/600 | 5/7 | 4/6 | relbert/nell_relational_similarity |
scan |
178/1616 | 3,36,136,10,45,78,15,21,55,120,153,91,28/3,36,136,10,45,78,15,21,55,120,153,91,28 | 2/2 | relbert/scientific_and_creative_analogy |
数据集结构
数据实例
test 的一个示例如下:
{ "stem": ["raphael", "painter"], "answer": 2, "choice": [["andersen", "plato"], ["reading", "berkshire"], ["marx", "philosopher"], ["tolstoi", "edison"]] }
stem 是查询词对,choice 包含词对候选,answer 指示正确候选的索引,从 0 开始。除了 Google 数据集外,所有数据均为小写。
引用信息
@inproceedings{ushio-etal-2021-bert-is, title ={{BERT} is to {NLP} what {A}lex{N}et is to {CV}: {C}an {P}re-{T}rained {L}anguage {M}odels {I}dentify {A}nalogies?}, author={Ushio, Asahi and Espinosa-Anke, Luis and Schockaert, Steven and Camacho-Collados, Jose}, booktitle={Proceedings of the {ACL}-{IJCNLP} 2021 Main Conference}, year={2021}, publisher={Association for Computational Linguistics} }
许可证
所有资源的许可证为 CC-BY-NC-4.0,因此它们可自由用于学术目的或个人研究,但限制用于商业用途。



