lince-benchmark/lince
收藏数据集卡片 for "lince"
数据集描述
数据集概要
LinCE 是一个集中的语言代码转换评估基准,包含用于训练和评估 NLP 系统在代码转换任务上的数据。
支持的任务和排行榜
语言
数据集结构
数据实例
lid_hineng
- 下载的数据文件大小: 0.43 MB
- 生成的数据集大小: 2.39 MB
- 总磁盘使用量: 2.82 MB
验证集示例: json { "idx": 0, "lid": ["other", "other", "lang1", "lang1", "lang1", "other", "lang1", "lang1", "lang1", "lang1", "lang1", "lang1", "lang1", "mixed", "lang1", "lang1", "other"], "words": ["@ZahirJ", "@BinyavangaW", "Loved", "the", "ending", "!", "I", "could", "have", "offered", "you", "some", "ironic", "chai-tea", "for", "it", ";)"] }
lid_msaea
- 下载的数据文件大小: 0.81 MB
- 生成的数据集大小: 4.89 MB
- 总磁盘使用量: 5.69 MB
训练集示例: json { "idx": 0, "lid": ["ne", "lang2", "other", "lang2", "lang2", "other", "other", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "lang2", "other", "lang2", "lang2", "lang2", "ne", "lang2", "lang2"], "words": ["علاء", "بخير", "،", "معنوياته", "كويسة", ".", "..", "اسخف", "حاجة", "بس", "ان", "كل", "واحد", "منهم", "بييقى", "مقفول", "عليه"...] }
lid_nepeng
- 下载的数据文件大小: 0.55 MB
- 生成的数据集大小: 3.21 MB
- 总磁盘使用量: 3.75 MB
验证集示例: json { "idx": 1, "lid": ["other", "lang2", "lang2", "lang2", "lang2", "lang1", "lang1", "lang1", "lang1", "lang1", "lang2", "lang2", "other", "mixed", "lang2", "lang2", "other", "other", "other", "other"], "words": ["@nirvikdada", "la", "hamlai", "bhetna", "paayeko", "will", "be", "your", "greatest", "gift", "ni", "dada", ";P", "#TreatChaiyo", "j", "hos", ";)", "@zappylily", "@AsthaGhm", "@ayacs_asis"] }
lid_spaeng
- 下载的数据文件大小: 1.18 MB
- 生成的数据集大小: 6.83 MB
- 总磁盘使用量: 8.01 MB
训练集示例: json { "idx": 0, "lid": ["other", "other", "lang1", "lang1", "lang1", "other", "lang1", "lang1"], "words": ["11:11", ".....", "make", "a", "wish", ".......", "night", "night"] }
ner_hineng
- 下载的数据文件大小: 0.14 MB
- 生成的数据集大小: 0.79 MB
- 总磁盘使用量: 0.92 MB
训练集示例: json { "idx": 1, "lid": ["en", "en", "en", "en", "en", "en", "hi", "hi", "hi", "hi", "hi", "hi", "hi", "en", "en", "en", "en", "rest"], "ner": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-PERSON", "I-PERSON", "O", "O", "O", "B-PERSON", "I-PERSON"], "words": ["I", "liked", "a", "@YouTube", "video", "https://t.co/DmVqhZbdaI", "Kabhi", "Palkon", "Pe", "Aasoon", "Hai-", "Kishore", "Kumar", "-Vocal", "Cover", "By", "Stephen", "Qadir"] }
数据字段
所有分割的数据字段相同。
lid_hineng
idx:int32特征。words:string特征的list。lid:string特征的list。
lid_msaea
idx:int32特征。words:string特征的list。lid:string特征的list。
lid_nepeng
idx:int32特征。words:string特征的list。lid:string特征的list。
lid_spaeng
idx:int32特征。words:string特征的list。lid:string特征的list。
ner_hineng
idx:int32特征。words:string特征的list。lid:string特征的list。ner:string特征的list。
数据分割
| 名称 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| lid_hineng | 4823 | 744 | 1854 |
| lid_msaea | 8464 | 1116 | 1663 |
| lid_nepeng | 8451 | 1332 | 3228 |
| lid_spaeng | 21030 | 3332 | 8289 |
| ner_hineng | 1243 | 314 | 522 |
数据集创建
策划理由
源数据
初始数据收集和规范化
源语言生产者是谁?
注释
注释过程
注释者是谁?
个人和敏感信息
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集策展人
许可信息
引用信息
@inproceedings{aguilar-etal-2020-lince, title = "{L}in{CE}: A Centralized Benchmark for Linguistic Code-switching Evaluation", author = "Aguilar, Gustavo and Kar, Sudipta and Solorio, Thamar", booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://www.aclweb.org/anthology/2020.lrec-1.223", pages = "1803--1813", language = "English", ISBN = "979-10-95546-34-4", }
请注意,每个 LinCE 数据集都有其自己的引用。请参阅 这里 以获取每个数据集的正确引用。



