HiTZ/euscrawl
收藏数据集概述
数据集名称: EusCrawl
语言: 巴斯克语 (eu)
许可证: Creative Commons (cc)
多语言性: 单语种
数据集大小: 10M<n<100M
数据来源: 原始数据
标签: 高质量, 网络爬虫
任务类别: 文本生成, 填充掩码
任务ID: 语言建模, 掩码语言建模
数据集结构
数据实例
json { "id": 6, "title": "Herriko enpresa handien eta txikien arteko topaketak egingo dituzte", "text": "09:30ean hasiko da bilera eta aurkezpena egingo dute Tubacex, JEZ, Envases, Guardian eta Vidrala enpresek. Eskualdeko lantegi motorrekin beste enpresa txikiak eta ertainak egongo dira. Erakunde publikoaren helburua da euren artean ezagutzea eta elkarlana sustatzea.", "source": "aiaraldea", "license": "cc-by-sa 3.0", "url": "https://aiaraldea.eus/laudio/1494603159768-herriko-enpresa-handien-eta-txikien-arteko-topaketak-egingo-dituzte", }
数据字段
- "id": 示例ID
- "title": 文章标题
- "text": 文章内容
- "source": 文章来源
- "license": 文章许可证
- "url": 文章URL
数据分割
- 训练集: 1724544个实例, 2314407002字节
数据集创建
许可证信息
数据集中的所有文档均在其原始网站上发布,并根据Creative Commons许可证授权。每个文档的特定许可证变体可在每个文档的"license"字段中找到。
引用信息
bibtex @misc{artetxe2022euscrawl, title={Does corpus quality really matter for low-resource languages?}, author={Mikel Artetxe, Itziar Aldabe, Rodrigo Agerri, Olatz Perez-de-Viñaspre, Aitor Soroa}, year={2022}, eprint={2203.08111}, archivePrefix={arXiv}, primaryClass={cs.CL} }




