five

dennlinger/wiki-paragraphs

收藏
Hugging Face2022-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dennlinger/wiki-paragraphs
下载链接
链接失效反馈
官方服务:
资源简介:
`wiki-paragraphs`数据集通过从维基百科文章中自动采样两个段落来构建,如果它们来自同一部分,则被视为“语义匹配”,否则视为“不相似”。数据集主要用于“同部分分类”任务,即判断两个句子/段落是否属于同一部分。数据集的构建基于Wiki-727k数据集,但使用了更新的维基百科数据。数据集包含训练、验证和测试集,分别占总数据的80%、10%和10%。数据集的使用应考虑其自动提取的语义相似性不完美,并可能需要额外的手动标注数据。

The `wiki-paragraphs` dataset is constructed by automatically sampling two paragraphs from Wikipedia articles. If the two paragraphs originate from the same section, they are labeled as "semantically matched"; otherwise, they are categorized as "dissimilar". The dataset is primarily utilized for the "same-section classification" task, which aims to determine whether two sentences or paragraphs belong to the same section. It is built upon the Wiki-727k dataset but leverages updated Wikipedia data. The dataset includes training, validation, and test splits, which account for 80%, 10%, and 10% of the total dataset respectively. Users should be aware that the automatically extracted semantic similarity labels are imperfect, and additional manual annotation data may be required for relevant tasks.
提供机构:
dennlinger
原始信息汇总

数据集概述

数据集名称

  • 名称: wiki-paragraphs

数据集属性

  • 语言: 英语
  • 许可证: cc-by-sa-3.0
  • 多语言性: 单语种
  • 大小: 10M<n<100M
  • 来源: 原始数据
  • 标签: 维基百科, 自相似性
  • 任务类别: 文本分类, 句子相似性
  • 任务ID: 语义相似性评分

数据集描述

  • 概述: wiki-paragraphs数据集通过自动从维基百科文章中抽样两个段落构建。如果它们来自同一节,则被视为“语义匹配”,否则为“不相似”。
  • 支持任务: 用于“同节分类”,这是一个二分类任务,判断两个句子/段落是否属于同一节。
  • 语言: 数据主要提取自英文维基百科。

数据集结构

  • 数据实例: 每个实例包含三个属性:sentence1(第一段落中的句子),sentence2(第二段落中的句子),label(0或1,表示两个段落是否属于同一节)。
  • 数据字段: sentence1, sentence2, label
  • 数据分割: 提供训练、验证和测试分割,比例为80/10/10,总计提供25375583对训练样本,以及3163685个验证和测试实例。

数据集创建

  • 采集理由: 用于大规模实验中长文本(段落级)的语义相似性预训练。
  • 源数据: 数据基于Wiki-727k数据集的文章,重新从维基百科获取。
  • 标注: 数据集无手动标注,通过自动抽样同一文章中的两个节来确定相似性。

使用数据注意事项

  • 社会影响: 作为语义相似性学习的预训练补充。
  • 偏见讨论: 可能存在轻微的性别偏见,男性人物在维基百科中更可能拥有页面。
  • 其他已知限制: 自动提取的语义相似性不是完美的,应谨慎对待。

附加信息

  • 数据集创建者: Lucienne-Sophie Marmé在Dennis Aumiller的监督下开发。
  • 许可证信息: 维基百科数据根据CC-BY-SA 3.0许可证提供。
  • 引用信息: 参见提供的引用信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作