indonlp/indonlu
收藏Hugging Face2023-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/indonlp/indonlu
下载链接
链接失效反馈官方服务:
资源简介:
IndoNLU基准测试是一个用于训练、评估和分析印尼语自然语言理解系统的资源集合。它包含12个数据集,涵盖了情感分析、词性标注、命名实体识别等多种任务。数据集中的文本来源于社交媒体、新闻网站等多种渠道,涵盖了印尼语的多种表达形式。每个数据集都有详细的数据字段描述和数据分割信息,适用于不同的自然语言处理任务。
The IndoNLU benchmark is a collection of resources for training, evaluating, and analyzing Indonesian natural language understanding systems. It comprises 12 datasets covering a wide range of natural language processing tasks including sentiment analysis, part-of-speech tagging, named entity recognition, and more. The texts in these datasets are sourced from multiple channels such as social media and news websites, encompassing diverse expression forms of the Indonesian language. Each dataset comes with detailed data field descriptions and data split information, and is suitable for different natural language processing tasks.
提供机构:
indonlp
原始信息汇总
数据集概述
数据集名称: IndoNLU
语言: 印度尼西亚语 (id)
许可证: MIT
多语言性: 单语种
大小分类:
- 10K<n<100K
- 1K<n<10K
- n<1K
源数据集: 原始数据
任务类别:
- 问答
- 文本分类
- 令牌分类
任务ID:
- closed-domain-qa
- multi-class-classification
- named-entity-recognition
- part-of-speech
- semantic-similarity-classification
- sentiment-classification
配置:
- bapos
- casa
- emot
- facqa
- hoasa
- keps
- nergrit
- nerp
- posp
- smsa
- terma
- wrete
标签:
- keyphrase-extraction
- span-extraction
- aspect-based-sentiment-analysis
数据集详细信息
-
EmoT
- 特征:
- tweet: 字符串
- label: 分类标签 (sadness, anger, love, fear, happy)
- 数据分割:
- 训练: 3521 样本
- 验证: 440 样本
- 测试: 440 样本
- 下载大小: 840917 字节
- 数据集大小: 855356 字节
- 特征:
-
SmSA
- 特征:
- text: 字符串
- label: 分类标签 (positive, neutral, negative)
- 数据分割:
- 训练: 11000 样本
- 验证: 1260 样本
- 测试: 500 样本
- 下载大小: 2509229 字节
- 数据集大小: 2536544 字节
- 特征:
-
CASA
- 特征:
- sentence: 字符串
- fuel, machine, others, part, price, service: 分类标签 (positive, neutral, negative)
- 数据分割:
- 训练: 810 样本
- 验证: 90 样本
- 测试: 180 样本
- 下载大小: 144903 字节
- 数据集大小: 145961 字节
- 特征:
-
HoASA
- 特征:
- sentence: 字符串
- ac, air_panas, bau, general, kebersihan, linen, service, sunrise_meal, tv, wifi: 分类标签 (positive, neutral, negative, positive-negative)
- 数据分割:
- 训练: 2283 样本
- 验证: 285 样本
- 测试: 286 样本
- 下载大小: 477314 字节
- 数据集大小: 572824 字节
- 特征:
-
WReTE
- 特征:
- premise: 字符串
- hypothesis: 字符串
- category: 字符串
- label: 分类标签 (NotEntail, Entail_or_Paraphrase)
- 数据分割:
- 训练: 300 样本
- 验证: 50 样本
- 测试: 100 样本
- 下载大小: 151018 字节
- 数据集大小: 150665 字节
- 特征:
-
POSP
- 特征:
- tokens: 字符串序列
- pos_tags: 分类标签序列
- 数据分割:
- 训练: 6720 样本
- 验证: 840 样本
- 测试: 840 样本
- 下载大小: 2407206 字节
- 数据集大小: 3445992 字节
- 特征:
-
BaPOS
- 特征:
- tokens: 字符串序列
- pos_tags: 分类标签序列
- 数据分割:
- 训练: 8000 样本
- 验证: 1000 样本
- 测试: 1029 样本
- 下载大小: 3084021 字节
- 数据集大小: 4706885 字节
- 特征:
-
TermA
- 特征:
- tokens: 字符串序列
- seq_label: 分类标签序列 (aspect, sentiment)
- 数据分割:
- 训练: 3000 样本
- 验证: 1000 样本
- 测试: 1000 样本
- 下载大小: 816822 字节
- 数据集大小: 1360240 字节
- 特征:
-
KEPS
- 特征:
- tokens: 字符串序列
- seq_label: 分类标签序列
- 数据分割:
- 训练: 800 样本
- 验证: 200 样本
- 测试: 247 样本
- 下载大小: 134042 字节
- 数据集大小: 283684 字节
- 特征:
-
NERGrit
- 特征:
- tokens: 字符串序列
- ner_tags: 分类标签序列 (PERSON, ORGANISATION, PLACE)
- 数据分割:
- 训练: 1672 样本
- 验证: 209 样本
- 测试: 209 样本
- 下载大小: 641265 字节
- 数据集大小: 1197551 字节
- 特征:
-
NERP
- 特征:
- tokens: 字符串序列
- ner_tags: 分类标签序列 (PER, LOC, IND, EVT, FNB)
- 数据分割:
- 训练: 6720 样本
- 验证: 840 样本
- 测试: 840 样本
- 下载大小: 1725986 字节
- 数据集大小: 3445992 字节
- 特征:
-
FacQA
- 特征:
- question: 字符串序列
- passage: 字符串序列
- seq_label: 分类标签序列
- 数据分割:
- 训练: 2495 样本
- 验证: 311 样本
- 测试: 311 样本
- 下载大小: 2591968 字节
- 数据集大小: 3067448 字节
- 特征:
搜集汇总
数据集介绍

构建方式
IndoNLU数据集由专家生成,涵盖了印度尼西亚语的多种自然语言处理任务。该数据集包括12个子数据集,每个子数据集针对特定的任务,如情感分析、命名实体识别、词性标注等。数据集的构建过程涉及从多个在线平台收集文本数据,并通过多位印度尼西亚语言学专家进行标注。每个子数据集都经过精心设计,以确保数据的质量和多样性,从而为模型训练和评估提供坚实的基础。
特点
IndoNLU数据集的特点在于其多任务和多标签的特性,涵盖了从情感分析到命名实体识别等多种任务。每个子数据集都具有明确的任务目标和丰富的标签体系,能够支持复杂的模型训练和评估。此外,数据集的多样性和高质量的标注使其成为研究印度尼西亚语自然语言处理的宝贵资源。
使用方法
使用IndoNLU数据集时,用户可以根据具体任务选择相应的子数据集,并利用提供的训练、验证和测试集进行模型训练和评估。数据集的结构清晰,每个子数据集都包含详细的特征描述和标签信息,便于用户理解和处理。用户可以通过HuggingFace的Datasets库轻松加载和使用该数据集,进行各种自然语言处理任务的研究和开发。
背景与挑战
背景概述
IndoNLU数据集是由专家生成的印尼语自然语言理解资源集合,旨在推动印尼语在情感分类、文本分类、命名实体识别等任务中的应用。该数据集由多个子数据集组成,涵盖了从社交媒体到新闻文章等多种文本来源,为研究者提供了丰富的标注数据。IndoNLU的创建不仅填补了印尼语在自然语言处理领域的数据空白,还为相关研究提供了坚实的基础。
当前挑战
IndoNLU数据集在构建过程中面临多重挑战。首先,印尼语作为一种资源相对匮乏的语言,其语料库的构建和标注工作尤为复杂。其次,数据集涵盖了多种任务和领域,确保每个子数据集的质量和一致性是一项艰巨的任务。此外,如何在保持数据多样性的同时,有效处理数据中的噪声和偏差,也是该数据集面临的重要挑战。
常用场景
经典使用场景
IndoNLU数据集在印度尼西亚语的自然语言理解任务中具有广泛的应用。其经典使用场景包括情感分类、方面级情感分析、命名实体识别和词性标注等。例如,EmoT配置用于情感分类,能够识别推文中的五种情感(愤怒、恐惧、快乐、爱和悲伤);而NERGrit配置则用于命名实体识别,能够从文本中提取人名、地点和组织等实体信息。
解决学术问题
IndoNLU数据集解决了印度尼西亚语自然语言处理中的多个关键学术问题。首先,它填补了印度尼西亚语在情感分析和命名实体识别等任务中的数据空白。其次,通过提供多样的任务配置,如方面级情感分析和词性标注,该数据集促进了多任务学习的研究。此外,IndoNLU还为跨语言迁移学习和模型泛化能力提供了宝贵的资源。
衍生相关工作
IndoNLU数据集的发布催生了多项相关研究和工作。例如,基于该数据集的情感分析模型在多个国际竞赛中取得了优异成绩,推动了情感分析技术的发展。此外,研究人员还利用IndoNLU进行跨语言模型训练,探索了印度尼西亚语与其他语言之间的迁移学习效果。这些工作不仅提升了印度尼西亚语自然语言处理的性能,也为其他低资源语言的处理提供了借鉴。
以上内容由遇见数据集搜集并总结生成



