dennlinger/wiki-paragraphs
收藏Hugging Face2022-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dennlinger/wiki-paragraphs
下载链接
链接失效反馈官方服务:
资源简介:
`wiki-paragraphs`数据集通过从维基百科文章中自动采样两个段落来构建,如果它们来自同一部分,则被视为“语义匹配”,否则视为“不相似”。数据集主要用于“同部分分类”任务,即判断两个句子/段落是否属于同一部分。数据集的构建基于Wiki-727k数据集,但使用了更新的维基百科数据。数据集包含训练、验证和测试集,分别占总数据的80%、10%和10%。数据集的使用应考虑其自动提取的语义相似性不完美,并可能需要额外的手动标注数据。
The `wiki-paragraphs` dataset is constructed by automatically sampling two paragraphs from Wikipedia articles. If the two paragraphs originate from the same section, they are labeled as "semantically matched"; otherwise, they are categorized as "dissimilar". The dataset is primarily utilized for the "same-section classification" task, which aims to determine whether two sentences or paragraphs belong to the same section. It is built upon the Wiki-727k dataset but leverages updated Wikipedia data. The dataset includes training, validation, and test splits, which account for 80%, 10%, and 10% of the total dataset respectively. Users should be aware that the automatically extracted semantic similarity labels are imperfect, and additional manual annotation data may be required for relevant tasks.
提供机构:
dennlinger
原始信息汇总
数据集概述
数据集名称
- 名称: wiki-paragraphs
数据集属性
- 语言: 英语
- 许可证: cc-by-sa-3.0
- 多语言性: 单语种
- 大小: 10M<n<100M
- 来源: 原始数据
- 标签: 维基百科, 自相似性
- 任务类别: 文本分类, 句子相似性
- 任务ID: 语义相似性评分
数据集描述
- 概述: wiki-paragraphs数据集通过自动从维基百科文章中抽样两个段落构建。如果它们来自同一节,则被视为“语义匹配”,否则为“不相似”。
- 支持任务: 用于“同节分类”,这是一个二分类任务,判断两个句子/段落是否属于同一节。
- 语言: 数据主要提取自英文维基百科。
数据集结构
- 数据实例: 每个实例包含三个属性:sentence1(第一段落中的句子),sentence2(第二段落中的句子),label(0或1,表示两个段落是否属于同一节)。
- 数据字段: sentence1, sentence2, label
- 数据分割: 提供训练、验证和测试分割,比例为80/10/10,总计提供25375583对训练样本,以及3163685个验证和测试实例。
数据集创建
- 采集理由: 用于大规模实验中长文本(段落级)的语义相似性预训练。
- 源数据: 数据基于Wiki-727k数据集的文章,重新从维基百科获取。
- 标注: 数据集无手动标注,通过自动抽样同一文章中的两个节来确定相似性。
使用数据注意事项
- 社会影响: 作为语义相似性学习的预训练补充。
- 偏见讨论: 可能存在轻微的性别偏见,男性人物在维基百科中更可能拥有页面。
- 其他已知限制: 自动提取的语义相似性不是完美的,应谨慎对待。
附加信息
- 数据集创建者: Lucienne-Sophie Marmé在Dennis Aumiller的监督下开发。
- 许可证信息: 维基百科数据根据CC-BY-SA 3.0许可证提供。
- 引用信息: 参见提供的引用信息。



