OpenLLM-France/wiktionary.fr
收藏Hugging Face2023-12-21 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/OpenLLM-France/wiktionary.fr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由OpenLLM France从Wikimedia dumps创建,包含来自fr.wiktionary.org的纯文本页面,去除了HTML标签和wiki模板,仅保留了标题、列表和表格的markdown语法。数据集包含650,087个文档,3,410,374个段落,10,702,057行文本,58,557,039个单词和372,042,066个字符。数据字段包括id、url、title和text。数据集的使用示例展示了如何加载完整数据集或子集。数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License。
This dataset is a plain text version of the French Wiktionary created by OpenLLM France from Wikimedia dumps. It is suitable for text generation and masked language modeling tasks, containing multiple configurations with specific data files and features such as id, url, title, and text. The dataset is licensed under CC-BY-SA-4.0 and includes statistics on the number of documents, paragraphs, lines, words, and characters, as well as sizes in memory and on disk. The README file also provides examples for loading the dataset in Python, notes on data formatting, acknowledgements, and citation information.
提供机构:
OpenLLM-France
原始信息汇总
数据集概述
基本信息
- 语言: 法语 (fr)
- 许可证: Creative Commons Attribution-ShareAlike 4.0 International License (cc-by-sa-4.0)
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
配置信息
配置 default
- 数据文件路径: 20231220/*
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 442573568
- 样本数: 650087
- 下载大小: 192941244
- 数据集大小: 442573568
配置 20231220
- 数据文件路径: 20231220/*
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 442573568
- 样本数: 650087
- 下载大小: 192941244
- 数据集大小: 442573568
配置 20231220.1
- 数据文件路径: 20231220/train-000000-of-000007.parquet
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 68635508
- 样本数: 91996
- 下载大小: 32850743
- 数据集大小: 68635508
配置 20231220.2
- 数据文件路径: 20231220/train-000001-of-000007.parquet
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 70148053
- 样本数: 118924
- 下载大小: 29931642
- 数据集大小: 70148053
配置 20231220.3
- 数据文件路径: 20231220/train-000002-of-000007.parquet
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 73099864
- 样本数: 119995
- 下载大小: 30711503
- 数据集大小: 73099864
配置 20231220.4
- 数据文件路径: 20231220/train-000003-of-000007.parquet
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 80580684
- 样本数: 110066
- 下载大小: 36351584
- 数据集大小: 80580684
配置 20231220.5
- 数据文件路径: 20231220/train-000004-of-000007.parquet
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 74534373
- 样本数: 102588
- 下载大小: 31438062
- 数据集大小: 74534373
配置 20231220.6
- 数据文件路径: 20231220/train-000005-of-000007.parquet
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 69491254
- 样本数: 98966
- 下载大小: 28958890
- 数据集大小: 69491254
配置 20231220.7
- 数据文件路径: 20231220/train-000006-of-000007.parquet
- 特征:
id: int32url: stringtitle: stringtext: string
- 分割:
train:- 字节数: 6083832
- 样本数: 7552
- 下载大小: 2698820
- 数据集大小: 6083832
数据字段
id(int): 文章IDurl(str): 文章URLtitle(str): 文章标题text(str): 文章内容
统计信息
- 文档数量: 650,087
- 段落数量: 3,410,374
- 行数: 10,702,057
- 单词数量: 58,557,039
- 字符数量: 372,042,066
- 内存大小: 422.1 MB
- 磁盘大小: 184.0 MB
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



