hpprc/jawiki-wiktionary
收藏Hugging Face2024-07-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/jawiki-wiktionary
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含文本和相关元信息的数据集,每个示例包含标题、文本、摘要、维基文本、创建和修改日期等字段。文本还被进一步划分为段落,每个段落有自己的ID、标签、文本和标题。数据集有一个训练集分割,并提供了相关的数据文件。
This is a dataset containing text and associated metadata, with each example including fields such as title, text, abstract, wikitext, creation and modification dates, etc. The text is further divided into paragraphs, each with its own ID, tag, text, and title. The dataset has a training set split and provides related data files.
提供机构:
hpprc
原始信息汇总
数据集概述
数据集配置信息
- 配置名称: 2024-04-01
数据集特征
- id: 整数类型 (int64)
- title: 字符串类型 (string)
- text: 字符串类型 (string)
- paragraphs: 列表类型,包含以下子特征:
- paragraph_id: 整数类型 (int64)
- tag: 字符串类型 (string)
- text: 字符串类型 (string)
- title: 字符串类型 (string)
- abstract: 字符串类型 (string)
- wikitext: 字符串类型 (string)
- date_created: 字符串类型 (string)
- date_modified: 字符串类型 (string)
- templates: 序列类型,字符串 (string)
- url: 字符串类型 (string)
数据集分割
- 训练集 (train):
- 字节数: 329656055
- 示例数: 357877
数据集大小
- 下载大小: 105953438
- 数据集大小: 329656055
许可证
- 许可证类型: cc-by-sa-3.0
语言
- 主要语言: 日语 (ja)



