The Xi’an Multi-Language Learner Corpus

Name: The Xi’an Multi-Language Learner Corpus
Creator: Linguistic Data Consortium
Published: 2025-06-03 15:35:33
License: 暂无描述

DataCite Commons2025-06-03 更新2026-05-03 收录

下载链接：

https://catalog.ldc.upenn.edu/LDC2025T03

下载链接

链接失效反馈

官方服务：

资源简介：

<h3>Introduction</h3> <p>The Xi’an Multi-Language Learner Corpus was developed by <a href="https://en.xisu.edu.cn/">Xi'an International Studies University (XISU)</a>. It is comprised of 526 argumentative essays in 15 languages by Chinese L1 university students studying second languages, along with student metadata and writing prompts. It was developed to support second language learner research and to provide a database for cross-linguistic comparison of second languages.</p> <h3>Data</h3> <p>The essays were produced by undergraduate students at XISU and <a href="https://web.ymu.edu.cn/gjxy/index.htm">Yunnan Minzu University (YMU)</a> in response to writing prompts prepared by the corpus development team. Data was collected in 2023 and 2024. Participating students were linguistic majors or studying one of the foreign languages available at XISU and YMU. Off-topic essays and incomplete texts were excluded</p> <p>All texts were cleaned and formatted. No changes were made to the texts in relation to grammatical tense or turn of phrase accuracy.</p> <p>Text and token counts by language are as follows:</p> <table> <thead> <tr> <th class="language">Language</th> <th class="numeric">texts</th> <th class="numeric">tokens</th> </tr> </thead> <tbody> <tr> <td class="language">Arabic</td> <td class="numeric">8</td> <td class="numeric">1,762</td> </tr> <tr> <td class="language">English</td> <td class="numeric">107</td> <td class="numeric">32,822</td> </tr> <tr> <td class="language">Filipino</td> <td class="numeric">10</td> <td class="numeric">1,371</td> </tr> <tr> <td class="language">French</td> <td class="numeric">129</td> <td class="numeric">39,944</td> </tr> <tr> <td class="language">German</td> <td class="numeric">78</td> <td class="numeric">10,941</td> </tr> <tr> <td class="language">Hindi</td> <td class="numeric">16</td> <td class="numeric">2,972</td> </tr> <tr> <td class="language">Indonesian</td> <td class="numeric">14</td> <td class="numeric">2,630</td> </tr> <tr> <td class="language">Korean</td> <td class="numeric">24</td> <td class="numeric">2,630</td> </tr> <tr> <td class="language">Malay</td> <td class="numeric">36</td> <td class="numeric">5,208</td> </tr> <tr> <td class="language">Persian</td> <td class="numeric">12</td> <td class="numeric">1,751</td> </tr> <tr> <td class="language">Russian</td> <td class="numeric">33</td> <td class="numeric">8,018</td> </tr> <tr> <td class="language">Swahili</td> <td class="numeric">10</td> <td class="numeric">1,840</td> </tr> <tr> <td class="language">Thai</td> <td class="numeric">12</td> <td class="numeric">1,661</td> </tr> <tr> <td class="language">Turkish</td> <td class="numeric">22</td> <td class="numeric">3,719</td> </tr> <tr> <td class="language">Urdu</td> <td class="numeric">15</td> <td class="numeric">3,645</td> </tr> </tbody> </table> <p> </p> <p><a href="https://lancsbox.lancs.ac.uk/">LancsBox X 4.0</a> was used for counting Swahili, Persian, French, Urdu, and Hindi tokens. <a href="https://www.laurenceanthony.net/software/antconc/">AntConc 4.2.4</a> was used for counting tokens in the other languages.</p> <p>The essays and writing prompts are stored in UTF-8 encoded plain text files. Metadata is presented in .csv files.</p>

提供机构：

Linguistic Data Consortium

创建时间：

2025-03-10

5,000+

优质数据集

54 个

任务类型

进入经典数据集