five

simple-wiki

收藏
魔搭社区2025-11-27 更新2025-01-11 收录
下载链接:
https://modelscope.cn/datasets/sentence-transformers/simple-wiki
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card for Simple Wiki This dataset is a collection of pairs of English Wikipedia entries and their simplified variants. See [Simple-Wiki](https://cs.pomona.edu/~dkauchak/simplification/) for additional information. This dataset can be used directly with Sentence Transformers to train embedding models. ## Dataset Subsets ### `pair` subset * Columns: "text", "simplified" * Column types: `str`, `str` * Examples: ```python { 'text': "Charles Michael `` Chuck '' Palahniuk ( ; born February 21 , 1962 ) is an American transgressional fiction novelist and freelance journalist .", "simplified": 'Chuck Palahniuk ( born February 21 , 1962 ) is an American satire author .', } ``` * Collection strategy: Reading the SimpleWiki dataset from [embedding-training-data](https://huggingface.co/datasets/sentence-transformers/embedding-training-data). * Deduplified: No

# Simple Wiki 数据集卡片 本数据集为英文维基百科条目与其简化版本的配对集合。更多信息可参阅 [Simple-Wiki](https://cs.pomona.edu/~dkauchak/simplification/)。 本数据集可直接结合 Sentence Transformers 训练嵌入模型。 ## 数据集子集 ### `pair` 子集 * 字段:`text`、`simplified` * 字段类型:均为字符串(`str`) * 示例: python { 'text': "查尔斯·迈克尔·“查克”·帕拉尼克(生于1962年2月21日)是美国越界小说作家与自由撰稿记者。", "simplified": "查克·帕拉尼克(生于1962年2月21日)是美国讽刺文学作家。", } * 采集策略:从 [embedding-training-data](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) 加载 SimpleWiki 数据集。 * 去重处理:否
提供机构:
maas
创建时间:
2025-01-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
simple-wiki数据集包含英语维基百科条目及其简化版本的配对,适用于训练句子嵌入模型。数据集包含一个名为'pair'的子集,其中包含'text'和'simplified'两列,分别代表原始文本和简化文本,采用Apache License 2.0许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作