five

120 Million Word Spanish Corpus 1.2亿字西班牙语语料库

收藏
阿里云天池2026-06-09 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/90065
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由57个文本文件组成。每个都包含XML格式的多个Wikipedia文章。每篇文章的文字周围都带有标签。初始标签还包含有关文章的元数据,包括文章的ID和文章的标题。文字“ ENDOFARTICLE”。出现在每篇文章的结尾,在结束标记之前。

This dataset consists of 57 text files. Each file contains multiple Wikipedia articles formatted in XML. The textual content of each article is enclosed within XML tags. The opening tags also include metadata about the article, including the article's ID and title. The string "ENDOFARTICLE" appears at the end of each article, just before the closing XML tag.
提供机构:
阿里云天池
创建时间:
2021-02-02
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集为1.2亿字西班牙语语料库,源自2010年西班牙语维基百科,包含57个XML格式的文本文件,每文件涵盖多篇文章并附带元数据标签。它适用于西班牙语语言分析,如停用词提取和主题建模研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务