jcblaise/newsph_nli
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/jcblaise/newsph_nli
下载链接
链接失效反馈官方服务:
资源简介:
NewsPH NLI数据集是首个针对低资源菲律宾语(Tagalog)的句子蕴含任务基准数据集。该数据集通过利用新闻文章的结构构建,包含60万对前提-假设对,分为训练集、验证集和测试集,比例为70-15-15。数据集的特征包括前提(premise)、假设(hypothesis)和标签(label)。数据集的创建者来自De La Salle University和University of the Philippines。
NewsPH NLI数据集是首个针对低资源菲律宾语(Tagalog)的句子蕴含任务基准数据集。该数据集通过利用新闻文章的结构构建,包含60万对前提-假设对,分为训练集、验证集和测试集,比例为70-15-15。数据集的特征包括前提(premise)、假设(hypothesis)和标签(label)。数据集的创建者来自De La Salle University和University of the Philippines。
提供机构:
jcblaise
原始信息汇总
数据集概述
数据集描述
- 数据集名称: NewsPH NLI
- 数据集简介: 首个针对低资源菲律宾语的句子蕴含基准数据集。通过利用新闻文章的结构构建,包含600,000个前提-假设对,按照70-15-15的比例分为训练、验证和测试集。
支持的任务和排行榜
- 任务类别: 文本分类
- 任务ID: 自然语言推理
语言
- 语言: 菲律宾语(Tagalog)
数据集结构
数据实例
json { "premise": "Alam ba ninyo ang ginawa ni Erap na noon ay lasing na lasing na rin?", "hypothesis": "Ininom niya ang alak na pinagpulbusan!", "label": "0" }
数据字段
- premise: 前提,数据类型为字符串
- hypothesis: 假设,数据类型为字符串
- label: 标签,数据类型为类别标签,包含两个类别:0 和 1
数据分割
- 训练集: 420,000个样本,154,510,599字节
- 测试集: 9,000个样本,3,283,665字节
- 验证集: 90,000个样本,33,015,530字节
数据集创建
策划理由
使用新闻文章自动创建NLI基准数据集的原因有两个:首先,新闻文章通常使用单句段落,每个段落仅包含一个句子。其次,新闻文章遵循“倒金字塔”结构,每个后续段落都建立在前提之上,最重要的信息位于顶部,最不重要的信息位于底部。
源数据
- 数据收集和规范化: 从所有主要的菲律宾新闻网站在线抓取新闻文章,共收集了229,571篇新闻文章,并进行了轻度预处理以去除多余的Unicode字符并纠正轻微的拼写错误。
注释
- 注释者: Jan Christian Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco 和 Charibeth Cheng
使用数据的注意事项
数据集的社交影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
其他信息
数据集策展人
- 策展人: Jan Christian Blaise Cruz
许可信息
[更多信息需补充]
引用信息
plaintext @article{cruz2020investigating, title={Investigating the True Performance of Transformers in Low-Resource Languages: A Case Study in Automatic Corpus Creation}, author={Jan Christian Blaise Cruz and Jose Kristian Resabal and James Lin and Dan John Velasco and Charibeth Cheng}, journal={arXiv preprint arXiv:2010.11574}, year={2020} }
贡献
感谢 @anaerobeth 添加此数据集。



