ycsong-eugene/syc-hellaswag2
收藏数据集卡片 for "hellaswag"
数据集描述
数据集摘要
HellaSwag: Can a Machine Really Finish Your Sentence? 是一个用于常识性自然语言推理(NLI)的新数据集。该数据集在ACL2019会议上发表了相关论文。
数据集结构
数据实例
默认
- 下载的数据集文件大小: 71.49 MB
- 生成的数据集大小: 65.32 MB
- 磁盘总使用量: 136.81 MB
一个 train 的示例如下:
json { "activity_label": "Removing ice from car", "ctx": "Then, the man writes over the snow covering the window of a car, and a woman wearing winter clothes smiles. then", "ctx_a": "Then, the man writes over the snow covering the window of a car, and a woman wearing winter clothes smiles.", "ctx_b": "then", "endings": "[", the man adds wax to the windshield and cuts it.", ", a person board a ski lift, while two men supporting the head of the per...", "ind": 4, "label": "3", "source_id": "activitynet~v_-1IBHYS3L-Y", "split": "train", "split_type": "indomain" }
数据字段
所有拆分中的数据字段相同。
默认
ind: 一个int32特征。activity_label: 一个string特征。ctx_a: 一个string特征。ctx_b: 一个string特征。ctx: 一个string特征。endings: 一个list的string特征。source_id: 一个string特征。split: 一个string特征。split_type: 一个string特征。label: 一个string特征。
数据拆分
| name | train | validation | test |
|---|---|---|---|
| default | 39905 | 10042 | 10003 |
数据集创建
数据集信息
-
features:
ind:int32activity_label:stringctx_a:stringctx_b:stringctx:stringendings:sequenceofstringsource_id:stringsplit:stringsplit_type:stringlabel:string
-
splits:
train:num_bytes: 43232624num_examples: 39905
test:num_bytes: 10791853num_examples: 10003
validation:num_bytes: 11175717num_examples: 10042
-
download_size: 71494896
-
dataset_size: 65200194
额外信息
许可证信息
MIT https://github.com/rowanz/hellaswag/blob/master/LICENSE
引用信息
bibtex @inproceedings{zellers2019hellaswag, title={HellaSwag: Can a Machine Really Finish Your Sentence?}, author={Zellers, Rowan and Holtzman, Ari and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin}, booktitle ={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }
贡献
感谢 @albertvillanova, @mariamabarham, @thomwolf, @patrickvonplaten, @lewtun 添加此数据集。



