Badbummer/lojban-wikipedia-dump
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Badbummer/lojban-wikipedia-dump
下载链接
链接失效反馈官方服务:
资源简介:
Lojban (jbo) Wikipedia数据集是从维基媒体基金会获取的Lojban语言维基词典的转储文件,具体版本为jbowiktionary-20240101-pages-meta-current.xml.bz2。该数据集经过处理,使用PlainTextWikipedia工具将原始数据转换为纯文本格式,并通过Python脚本将多个JSON文件合并为一个jsonl文件。
Lojban (jbo) Wikipedia数据集是从维基媒体基金会获取的Lojban语言维基词典的转储文件,具体版本为jbowiktionary-20240101-pages-meta-current.xml.bz2。该数据集经过处理,使用PlainTextWikipedia工具将原始数据转换为纯文本格式,并通过Python脚本将多个JSON文件合并为一个jsonl文件。
提供机构:
Badbummer
原始信息汇总
Lojban (jbo) Wikipedia 数据集
数据来源
- 数据集是从以下链接获取的:
- 具体版本为:
jbowiktionary-20240101-pages-meta-current.xml.bz2
数据处理
- 使用工具 https://github.com/daveshap/PlainTextWikipedia 处理数据。
- 通过 chatGPT 生成的 Python 脚本将单独的 JSON 文件转换为单个 jsonl 文件。



