five

lince-benchmark/lince

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/lince-benchmark/lince
下载链接
链接失效反馈
资源简介:
LinCE是一个集中的语言代码切换评估基准,包含用于训练和评估NLP系统在代码切换任务上的数据。数据集中包含多个配置,每个配置都有不同的语言对和任务类型,如语言识别(LID)、命名实体识别(NER)等。
提供机构:
lince-benchmark
原始信息汇总

数据集卡片 for "lince"

数据集描述

数据集概要

LinCE 是一个集中的语言代码转换评估基准,包含用于训练和评估 NLP 系统在代码转换任务上的数据。

支持的任务和排行榜

更多信息需补充

语言

更多信息需补充

数据集结构

数据实例

lid_hineng

  • 下载的数据文件大小: 0.43 MB
  • 生成的数据集大小: 2.39 MB
  • 总磁盘使用量: 2.82 MB

验证集示例: json { "idx": 0, "lid": ["other", "other", "lang1", "lang1", "lang1", "other", "lang1", "lang1", "lang1", "lang1", "lang1", "lang1", "lang1", "mixed", "lang1", "lang1", "other"], "words": ["@ZahirJ", "@BinyavangaW", "Loved", "the", "ending", "!", "I", "could", "have", "offered", "you", "some", "ironic", "chai-tea", "for", "it", ";)"] }

lid_msaea

  • 下载的数据文件大小: 0.81 MB
  • 生成的数据集大小: 4.89 MB
  • 总磁盘使用量: 5.69 MB

训练集示例: json { "idx": 0, "lid": ["ne", "lang2", "other", "lang2", "lang2", "other", "other", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "other", "lang2", "lang2", "lang2", "ne", "lang2", "lang2"], "words": ["علاء", "بخير", "،", "معنوياته", "كويسة", ".", "..", "اسخف", "حاجة", "بس", "ان", "كل", "واحد", "منهم", "بييقى", "مقفول", "عليه"...] }

lid_nepeng

  • 下载的数据文件大小: 0.55 MB
  • 生成的数据集大小: 3.21 MB
  • 总磁盘使用量: 3.75 MB

验证集示例: json { "idx": 1, "lid": ["other", "lang2", "lang2", "lang2", "lang2", "lang1", "lang1", "lang1", "lang1", "lang1", "lang2", "lang2", "other", "mixed", "lang2", "lang2", "other", "other", "other", "other"], "words": ["@nirvikdada", "la", "hamlai", "bhetna", "paayeko", "will", "be", "your", "greatest", "gift", "ni", "dada", ";P", "#TreatChaiyo", "j", "hos", ";)", "@zappylily", "@AsthaGhm", "@ayacs_asis"] }

lid_spaeng

  • 下载的数据文件大小: 1.18 MB
  • 生成的数据集大小: 6.83 MB
  • 总磁盘使用量: 8.01 MB

训练集示例: json { "idx": 0, "lid": ["other", "other", "lang1", "lang1", "lang1", "other", "lang1", "lang1"], "words": ["11:11", ".....", "make", "a", "wish", ".......", "night", "night"] }

ner_hineng

  • 下载的数据文件大小: 0.14 MB
  • 生成的数据集大小: 0.79 MB
  • 总磁盘使用量: 0.92 MB

训练集示例: json { "idx": 1, "lid": ["en", "en", "en", "en", "en", "en", "hi", "hi", "hi", "hi", "hi", "hi", "hi", "en", "en", "en", "en", "rest"], "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "I-PERSON", "O", "O", "O", "B-PERSON", "I-PERSON"], "words": ["I", "liked", "a", "@YouTube", "video", "https://t.co/DmVqhZbdaI", "Kabhi", "Palkon", "Pe", "Aasoon", "Hai-", "Kishore", "Kumar", "-Vocal", "Cover", "By", "Stephen", "Qadir"] }

数据字段

所有分割的数据字段相同。

lid_hineng

  • idx: int32 特征。
  • words: string 特征的 list
  • lid: string 特征的 list

lid_msaea

  • idx: int32 特征。
  • words: string 特征的 list
  • lid: string 特征的 list

lid_nepeng

  • idx: int32 特征。
  • words: string 特征的 list
  • lid: string 特征的 list

lid_spaeng

  • idx: int32 特征。
  • words: string 特征的 list
  • lid: string 特征的 list

ner_hineng

  • idx: int32 特征。
  • words: string 特征的 list
  • lid: string 特征的 list
  • ner: string 特征的 list

数据分割

名称 训练集 验证集 测试集
lid_hineng 4823 744 1854
lid_msaea 8464 1116 1663
lid_nepeng 8451 1332 3228
lid_spaeng 21030 3332 8289
ner_hineng 1243 314 522

数据集创建

策划理由

更多信息需补充

源数据

初始数据收集和规范化

更多信息需补充

源语言生产者是谁?

更多信息需补充

注释

注释过程

更多信息需补充

注释者是谁?

更多信息需补充

个人和敏感信息

更多信息需补充

使用数据的注意事项

数据集的社会影响

更多信息需补充

偏见的讨论

更多信息需补充

其他已知限制

更多信息需补充

附加信息

数据集策展人

更多信息需补充

许可信息

更多信息需补充

引用信息

@inproceedings{aguilar-etal-2020-lince, title = "{L}in{CE}: A Centralized Benchmark for Linguistic Code-switching Evaluation", author = "Aguilar, Gustavo and Kar, Sudipta and Solorio, Thamar", booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://www.aclweb.org/anthology/2020.lrec-1.223", pages = "1803--1813", language = "English", ISBN = "979-10-95546-34-4", }

请注意,每个 LinCE 数据集都有其自己的引用。请参阅 这里 以获取每个数据集的正确引用。

贡献

感谢 @lhoestq, @thomwolf, @gaguilar 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作