lince-benchmark/lince

Name: lince-benchmark/lince
Creator: lince-benchmark
Published: 2024-01-18 11:08:14
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/lince-benchmark/lince

下载链接

链接失效反馈

官方服务：

资源简介：

LinCE是一个集中的语言代码切换评估基准，包含用于训练和评估NLP系统在代码切换任务上的数据。数据集中包含多个配置，每个配置都有不同的语言对和任务类型，如语言识别（LID）、命名实体识别（NER）等。

LinCE is a centralized language code-switching evaluation benchmark that contains data for training and evaluating NLP systems on code-switching tasks. The dataset includes multiple configurations, each with distinct language pairs and task types, such as language identification (LID), named entity recognition (NER), etc.

提供机构：

lince-benchmark

原始信息汇总

数据集卡片 for "lince"

数据集描述

数据集概要

LinCE 是一个集中的语言代码转换评估基准，包含用于训练和评估 NLP 系统在代码转换任务上的数据。

支持的任务和排行榜

更多信息需补充

语言

更多信息需补充

数据集结构

数据实例

lid_hineng

下载的数据文件大小: 0.43 MB
生成的数据集大小: 2.39 MB
总磁盘使用量: 2.82 MB

验证集示例： json { "idx": 0, "lid": ["other", "other", "lang1", "lang1", "lang1", "other", "lang1", "lang1", "lang1", "lang1", "lang1", "lang1", "lang1", "mixed", "lang1", "lang1", "other"], "words": ["@ZahirJ", "@BinyavangaW", "Loved", "the", "ending", "!", "I", "could", "have", "offered", "you", "some", "ironic", "chai-tea", "for", "it", ";)"] }

lid_msaea

下载的数据文件大小: 0.81 MB
生成的数据集大小: 4.89 MB
总磁盘使用量: 5.69 MB

训练集示例： json { "idx": 0, "lid": ["ne", "lang2", "other", "lang2", "lang2", "other", "other", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "other", "lang2", "lang2", "lang2", "ne", "lang2", "lang2"], "words": ["علاء", "بخير", "،", "معنوياته", "كويسة", ".", "..", "اسخف", "حاجة", "بس", "ان", "كل", "واحد", "منهم", "بييقى", "مقفول", "عليه"...] }

lid_nepeng

下载的数据文件大小: 0.55 MB
生成的数据集大小: 3.21 MB
总磁盘使用量: 3.75 MB

验证集示例： json { "idx": 1, "lid": ["other", "lang2", "lang2", "lang2", "lang2", "lang1", "lang1", "lang1", "lang1", "lang1", "lang2", "lang2", "other", "mixed", "lang2", "lang2", "other", "other", "other", "other"], "words": ["@nirvikdada", "la", "hamlai", "bhetna", "paayeko", "will", "be", "your", "greatest", "gift", "ni", "dada", ";P", "#TreatChaiyo", "j", "hos", ";)", "@zappylily", "@AsthaGhm", "@ayacs_asis"] }

lid_spaeng

下载的数据文件大小: 1.18 MB
生成的数据集大小: 6.83 MB
总磁盘使用量: 8.01 MB

训练集示例： json { "idx": 0, "lid": ["other", "other", "lang1", "lang1", "lang1", "other", "lang1", "lang1"], "words": ["11:11", ".....", "make", "a", "wish", ".......", "night", "night"] }

ner_hineng

下载的数据文件大小: 0.14 MB
生成的数据集大小: 0.79 MB
总磁盘使用量: 0.92 MB

训练集示例： json { "idx": 1, "lid": ["en", "en", "en", "en", "en", "en", "hi", "hi", "hi", "hi", "hi", "hi", "hi", "en", "en", "en", "en", "rest"], "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "I-PERSON", "O", "O", "O", "B-PERSON", "I-PERSON"], "words": ["I", "liked", "a", "@YouTube", "video", "https://t.co/DmVqhZbdaI", "Kabhi", "Palkon", "Pe", "Aasoon", "Hai-", "Kishore", "Kumar", "-Vocal", "Cover", "By", "Stephen", "Qadir"] }

数据字段

所有分割的数据字段相同。

lid_hineng

idx: int32 特征。
words: string 特征的 list。
lid: string 特征的 list。

lid_msaea

idx: int32 特征。
words: string 特征的 list。
lid: string 特征的 list。

lid_nepeng

idx: int32 特征。
words: string 特征的 list。
lid: string 特征的 list。

lid_spaeng

idx: int32 特征。
words: string 特征的 list。
lid: string 特征的 list。

ner_hineng

idx: int32 特征。
words: string 特征的 list。
lid: string 特征的 list。
ner: string 特征的 list。

数据分割

名称	训练集	验证集	测试集
lid_hineng	4823	744	1854
lid_msaea	8464	1116	1663
lid_nepeng	8451	1332	3228
lid_spaeng	21030	3332	8289
ner_hineng	1243	314	522

数据集创建

策划理由

更多信息需补充

源数据

初始数据收集和规范化

更多信息需补充

源语言生产者是谁？

更多信息需补充

注释

使用数据的注意事项

数据集的社会影响

更多信息需补充

偏见的讨论

更多信息需补充

其他已知限制

更多信息需补充

附加信息

数据集策展人

更多信息需补充

许可信息

更多信息需补充

引用信息

@inproceedings{aguilar-etal-2020-lince, title = "{L}in{CE}: A Centralized Benchmark for Linguistic Code-switching Evaluation", author = "Aguilar, Gustavo and Kar, Sudipta and Solorio, Thamar", booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://www.aclweb.org/anthology/2020.lrec-1.223", pages = "1803--1813", language = "English", ISBN = "979-10-95546-34-4", }

请注意，每个 LinCE 数据集都有其自己的引用。请参阅这里以获取每个数据集的正确引用。

贡献

感谢 @lhoestq, @thomwolf, @gaguilar 添加此数据集。

搜集汇总

数据集介绍

背景与挑战

背景概述

LinCE是一个用于评估语言代码转换任务的集中式基准数据集，包含多个子集和语言对，适用于训练和评估NLP系统。数据集结构清晰，包含详细的数据实例和字段，但部分背景信息如数据收集和注释过程需要进一步补充。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

lince-benchmark/lince

数据集卡片 for "lince"

数据集描述

数据集概要

支持的任务和排行榜

语言

数据集结构

数据实例

lid_hineng

lid_msaea

lid_nepeng

lid_spaeng

ner_hineng

数据字段

lid_hineng

lid_msaea

lid_nepeng

lid_spaeng

ner_hineng

数据分割

数据集创建

策划理由

源数据

初始数据收集和规范化

源语言生产者是谁？

注释

注释过程

注释者是谁？

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见的讨论

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献