neurotatarlar/tt-crawl
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/neurotatarlar/tt-crawl
下载链接
链接失效反馈官方服务:
资源简介:
为了促进低资源语言的研究,我们发布了TatarCrawl数据集,这是一个包含来自近15个不同来源的鞑靼语网络新闻材料的语料库。
为了促进低资源语言的研究,我们发布了TatarCrawl数据集,这是一个包含来自近15个不同来源的鞑靼语网络新闻材料的语料库。
提供机构:
neurotatarlar
原始信息汇总
数据集概述
名称:TatarCrawl
语言:Tatar (tt)
许可证:Apache-2.0
多语言性:单语种
大小:100K<n<1M
任务类别:
- 文本生成
- 填充掩码
任务ID:
- 语言建模
- 掩码语言建模
配置:
- 默认配置:
- 数据文件:
- 分割:news_noisy
- 路径:train/news_noisy_*
- 分割:news_clean
- 路径:train/news_clean_*
- 分割:news_noisy
- 数据文件:
标签:
- Tatar
- 爬虫
- 新闻
描述:TatarCrawl数据集是一个网页新闻语料库,包含来自近15个独特来源的Tatar语言材料,旨在促进低资源语言的研究。



