Italki Native Language Identification Dataset
收藏italkiCorpus 数据集概述
数据集描述
- 名称: Italki Native Language Identification Dataset
- 别名: Italki
- URL: https://github.com/ghomasHudson/italkiCorpus
- 描述: 该数据集用于原语言识别(NLI)任务,即从第二语言写作中识别作者的原语言。数据集包含大量来自语言学习网站italki的文本。italki网站为语言学习者提供了一个社区,用于访问教学资源、练习口语、讨论话题和在其目标语言(英语)中提问。收集的“笔记本”文档主要是自传式日记条目,附带描述作者原语言的连接个人资料。
数据收集
-
由于版权原因,不提供原始数据。提供工具以从italki网站重新创建NLI语料库。
-
使用以下命令重新创建2017年收集的相同数据集: bash python3 scrape.py recreate 2017_ids.txt
-
使用以下命令收集新数据: bash python3 scrape.py scrape arabic chinese french german hindi italian japanese korean russian spanish turkish
-
默认情况下,将在
italki_data文件夹中创建以文档ID命名的.txt文件和标签CSV文件。
基准测试
- 在
benchmark文件夹中包含两个脚本:italki/italki.py- 使用Huggingface Datasets库加载数据。train.py- 使用数据集训练简单的bert模型。
引用信息
-
若使用此数据集,请引用:
@inproceedings{hudson2018development, title={On the Development of a Large Scale Corpus for Native Language Identification}, author={Hudson, Thomas G and Jaf, Sardar}, booktitle={Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018), December 13--14, 2018, Oslo University, Norway}, number={155}, pages={115--129}, year={2018}, organization={Link{"o}ping University Electronic Press} }




