veryrealtatarperson/tt-azatliq-crawl
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/veryrealtatarperson/tt-azatliq-crawl
下载链接
链接失效反馈官方服务:
资源简介:
AzatliqCrawl是一个基于Tatar语言的文档级数据集,来源于Azatliq报纸。该数据集有两个版本:一个是未经过滤的noisy版本,另一个是经过多种过滤处理的clean版本。过滤处理包括使用fasstext BOW进行语言识别和使用MinHashLSH进行去重。数据集适用于文本生成和填充掩码任务。
AzatliqCrawl是一个基于Tatar语言的文档级数据集,来源于Azatliq报纸。该数据集有两个版本:一个是未经过滤的noisy版本,另一个是经过多种过滤处理的clean版本。过滤处理包括使用fasstext BOW进行语言识别和使用MinHashLSH进行去重。数据集适用于文本生成和填充掩码任务。
提供机构:
veryrealtatarperson
原始信息汇总
数据集概述
名称: AzatliqCrawl
语言: Tatar (tt)
许可证: MIT
多语言性: 单语种
大小: 10K<n<100K
任务类别:
- 文本生成
- 填充掩码
任务ID:
- 语言建模
- 掩码语言建模
配置:
- 默认配置:
- 数据文件:
- 分割: news_noisy
- 路径: news_noisy_*
- 分割: news_clean
- 路径: news_clean_*
- 分割: news_noisy
- 数据文件:
标签:
- tt
- crawl
- news
- azatliq
数据集描述: AzatliqCrawl 是一个基于 Azatliq 报纸的 Tatar 语言文档级数据集。数据集包含两个版本:
- 噪声版: 未经过滤,包含原始数据。
- 清洁版: 应用了多种过滤方法,包括使用 fasstext BOW 进行语言识别和使用 MinHashLSH(128 次置换,阈值 0.9)进行去重。尽管如此,清洁版仍包含一定程度的噪声。两个版本的数据均以文档级别发布。



