dominguesm/canarim
收藏Canarim 数据集概述
基本信息
- 语言: 葡萄牙语
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 任务类别:
- 文本生成
- 填充掩码
- 任务标识:
- 语言建模
- 掩码语言建模
- 数据集大小: 100M<n<1B
数据集结构
特征
url: 页面URL (字符串)content_languages: 页面语言 (字符串)warc_filename: WARC文件名 (字符串)warc_record_offset: WARC记录偏移量 (int64)warc_record_length: WARC记录长度 (int64)text: 页面文本,Markdown格式 (字符串)crawl_timestamp: 抓取时间戳 (字符串)
数据分割
- 训练集:
- 样本数量: 342,818,651
- 字节大小: 1,087,519,823,221
数据实例
json { "url": "...", "content_languages": "por", "warc_filename": "crawl-data/CC-MAIN-2023-06/segments/1674764500041.18/warc/CC-MAIN-20230202200542-20230202230542-00352.warc.gz", "warc_record_offset": 971279893, "warc_record_length": 3873, "text": "...", "crawl_timestamp": "2023-02-02T20:28:21Z" }
文本提取概述
Canarim 数据集使用 Trafilatura 库从 HTML 数据中提取文本内容,并将其转换为 Markdown 格式。该工具专注于保留 Markdown 格式的关键文本元素,如标题、子标题、粗体和斜体格式,确保保留原始文档结构。
使用示例
python !pip install -q datasets
from datasets import load_dataset
ds = load_dataset( "dominguesm/canarim", split="train", data_files="train/data-0019*-of-00192.arrow", streaming=True )
ds_globo = ds.filter( lambda example: example[url].startswith("https://g1.globo.com/") )
data = list(ds_globo.take(10))
print(data[0])
引用
bibtex @misc {maicon_domingues_2024, author = { {Maicon Domingues} }, title = { canarim (Revision 640e079) }, year = 2024, url = { https://huggingface.co/datasets/dominguesm/canarim }, doi = { 10.57967/hf/1605 }, publisher = { Hugging Face } }
许可证
该数据集遵循 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证。




