Wikipedia Foundation Dataset
收藏arXiv2025-09-30 收录
下载链接:
https://en.wikipedia.org/wiki/List_of_ISO_639_language_codes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从涵盖16种语言的维基百科数据集中筛选出来的一小部分,用于识别特定语言的神经元。此外,该数据集中的一部分也被用于评估在资源较少语言中的性能表现。该数据集涵盖了16种语言(包括英语、法语、西班牙语、越南语、印尼语、日语、中文、孟加拉语、印地语、泰米尔语、泰卢固语、马拉地语、乌尔都语、卡纳达语、马拉雅拉姆语和旁遮普语),其任务是识别特定语言的神经元。
This dataset is a small subset filtered from a Wikipedia corpus spanning 16 languages, which is primarily utilized for identifying language-specific neurons. Additionally, a segment of this dataset is used to assess model performance on low-resource languages. Covering 16 languages including English, French, Spanish, Vietnamese, Indonesian, Japanese, Chinese, Bengali, Hindi, Tamil, Telugu, Marathi, Urdu, Kannada, Malayalam, and Punjabi, this dataset focuses on the task of identifying language-specific neurons.
提供机构:
Wikipedia



