veryrealtatarperson/tt-azatliq-crawl

Name: veryrealtatarperson/tt-azatliq-crawl
Creator: veryrealtatarperson
Published: 2024-05-10 22:10:45
License: 暂无描述

Hugging Face2024-05-10 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/veryrealtatarperson/tt-azatliq-crawl

下载链接

链接失效反馈

官方服务：

资源简介：

AzatliqCrawl是一个基于Tatar语言的文档级数据集，来源于Azatliq报纸。该数据集有两个版本：一个是未经过滤的noisy版本，另一个是经过多种过滤处理的clean版本。过滤处理包括使用fasstext BOW进行语言识别和使用MinHashLSH进行去重。数据集适用于文本生成和填充掩码任务。

提供机构：

veryrealtatarperson

原始信息汇总

数据集概述

名称: AzatliqCrawl

语言: Tatar (tt)

许可证: MIT

多语言性: 单语种

大小: 10K<n<100K

任务类别:

文本生成
填充掩码

任务ID:

语言建模
掩码语言建模

配置:

默认配置:
- 数据文件:
  - 分割: news_noisy
    - 路径: news_noisy_*
  - 分割: news_clean
    - 路径: news_clean_*

标签:

tt
crawl
news
azatliq

数据集描述: AzatliqCrawl 是一个基于 Azatliq 报纸的 Tatar 语言文档级数据集。数据集包含两个版本：

噪声版: 未经过滤，包含原始数据。
清洁版: 应用了多种过滤方法，包括使用 fasstext BOW 进行语言识别和使用 MinHashLSH（128 次置换，阈值 0.9）进行去重。尽管如此，清洁版仍包含一定程度的噪声。两个版本的数据均以文档级别发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集