jcblaise/newsph_nli

Name: jcblaise/newsph_nli
Creator: jcblaise
Published: 2024-01-18 11:10:28
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/jcblaise/newsph_nli

下载链接

链接失效反馈

官方服务：

资源简介：

NewsPH NLI数据集是首个针对低资源菲律宾语（Tagalog）的句子蕴含任务基准数据集。该数据集通过利用新闻文章的结构构建，包含60万对前提-假设对，分为训练集、验证集和测试集，比例为70-15-15。数据集的特征包括前提（premise）、假设（hypothesis）和标签（label）。数据集的创建者来自De La Salle University和University of the Philippines。

提供机构：

jcblaise

原始信息汇总

数据集概述

数据集描述

数据集名称: NewsPH NLI
数据集简介: 首个针对低资源菲律宾语的句子蕴含基准数据集。通过利用新闻文章的结构构建，包含600,000个前提-假设对，按照70-15-15的比例分为训练、验证和测试集。

支持的任务和排行榜

任务类别: 文本分类
任务ID: 自然语言推理

语言

语言: 菲律宾语（Tagalog）

数据集结构

数据实例

json { "premise": "Alam ba ninyo ang ginawa ni Erap na noon ay lasing na lasing na rin?", "hypothesis": "Ininom niya ang alak na pinagpulbusan!", "label": "0" }

数据字段

premise: 前提，数据类型为字符串
hypothesis: 假设，数据类型为字符串
label: 标签，数据类型为类别标签，包含两个类别：0 和 1

数据分割

训练集: 420,000个样本，154,510,599字节
测试集: 9,000个样本，3,283,665字节
验证集: 90,000个样本，33,015,530字节

数据集创建

策划理由

使用新闻文章自动创建NLI基准数据集的原因有两个：首先，新闻文章通常使用单句段落，每个段落仅包含一个句子。其次，新闻文章遵循“倒金字塔”结构，每个后续段落都建立在前提之上，最重要的信息位于顶部，最不重要的信息位于底部。

源数据

数据收集和规范化: 从所有主要的菲律宾新闻网站在线抓取新闻文章，共收集了229,571篇新闻文章，并进行了轻度预处理以去除多余的Unicode字符并纠正轻微的拼写错误。

注释

注释者: Jan Christian Blaise Cruz, Jose Kristian Resabal, James Lin, Dan John Velasco 和 Charibeth Cheng

使用数据的注意事项

数据集的社交影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

其他信息

数据集策展人

策展人: Jan Christian Blaise Cruz

许可信息

[更多信息需补充]

引用信息

plaintext @article{cruz2020investigating, title={Investigating the True Performance of Transformers in Low-Resource Languages: A Case Study in Automatic Corpus Creation}, author={Jan Christian Blaise Cruz and Jose Kristian Resabal and James Lin and Dan John Velasco and Charibeth Cheng}, journal={arXiv preprint arXiv:2010.11574}, year={2020} }

贡献

感谢 @anaerobeth 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集