simple-wiki
收藏魔搭社区2025-11-27 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/sentence-transformers/simple-wiki
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for Simple Wiki
This dataset is a collection of pairs of English Wikipedia entries and their simplified variants. See [Simple-Wiki](https://cs.pomona.edu/~dkauchak/simplification/) for additional information.
This dataset can be used directly with Sentence Transformers to train embedding models.
## Dataset Subsets
### `pair` subset
* Columns: "text", "simplified"
* Column types: `str`, `str`
* Examples:
```python
{
'text': "Charles Michael `` Chuck '' Palahniuk ( ; born February 21 , 1962 ) is an American transgressional fiction novelist and freelance journalist .",
"simplified": 'Chuck Palahniuk ( born February 21 , 1962 ) is an American satire author .',
}
```
* Collection strategy: Reading the SimpleWiki dataset from [embedding-training-data](https://huggingface.co/datasets/sentence-transformers/embedding-training-data).
* Deduplified: No
# Simple Wiki 数据集卡片
本数据集为英文维基百科条目与其简化版本的配对集合。更多信息可参阅 [Simple-Wiki](https://cs.pomona.edu/~dkauchak/simplification/)。
本数据集可直接结合 Sentence Transformers 训练嵌入模型。
## 数据集子集
### `pair` 子集
* 字段:`text`、`simplified`
* 字段类型:均为字符串(`str`)
* 示例:
python
{
'text': "查尔斯·迈克尔·“查克”·帕拉尼克(生于1962年2月21日)是美国越界小说作家与自由撰稿记者。",
"simplified": "查克·帕拉尼克(生于1962年2月21日)是美国讽刺文学作家。",
}
* 采集策略:从 [embedding-training-data](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) 加载 SimpleWiki 数据集。
* 去重处理:否
提供机构:
maas
创建时间:
2025-01-06
搜集汇总
数据集介绍

背景与挑战
背景概述
simple-wiki数据集包含英语维基百科条目及其简化版本的配对,适用于训练句子嵌入模型。数据集包含一个名为'pair'的子集,其中包含'text'和'simplified'两列,分别代表原始文本和简化文本,采用Apache License 2.0许可证。
以上内容由遇见数据集搜集并总结生成



