five

community-datasets/style_change_detection

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/style_change_detection
下载链接
链接失效反馈
官方服务:
资源简介:
风格变化检测数据集的目的是识别多作者文档中作者切换的文本位置。检测这些位置是作者身份识别过程的关键部分,也是多作者文档分析的关键部分。数据集分为两种配置:narrow和wide,每种配置都有特定的特征和分割。特征包括id、text、authors、structure、site、multi-author和changes。数据集分为训练集和验证集,并提供了每种配置的详细统计信息。访问该数据集需要从Zenodo申请。

风格变化检测数据集的目的是识别多作者文档中作者切换的文本位置。检测这些位置是作者身份识别过程的关键部分,也是多作者文档分析的关键部分。数据集分为两种配置:narrow和wide,每种配置都有特定的特征和分割。特征包括id、text、authors、structure、site、multi-author和changes。数据集分为训练集和验证集,并提供了每种配置的详细统计信息。访问该数据集需要从Zenodo申请。
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

数据集摘要

StyleChangeDetection 数据集的目标是识别多作者文档中作者切换的文本位置。这是作者身份识别过程的关键部分,也是多作者文档分析的通用需求。

数据集结构

数据实例

narrow

  • 下载的数据文件大小: 0.00 MB
  • 生成的数据集大小: 60.94 MB
  • 总磁盘使用量: 60.94 MB

一个 validation 示例如下: json { "authors": 2, "changes": [false, false, true, false], "id": "2", "multi-author": true, "site": "exampleSite", "structure": ["A1", "A2"], "text": "This is text from example problem 2. " }

wide

  • 下载的数据文件大小: 0.00 MB
  • 生成的数据集大小: 146.26 MB
  • 总磁盘使用量: 146.26 MB

一个 train 示例如下: json { "authors": 2, "changes": [false, false, true, false], "id": "2", "multi-author": true, "site": "exampleSite", "structure": ["A1", "A2"], "text": "This is text from example problem 2. " }

数据字段

所有分区的数据字段相同。

narrow

  • id: 字符串类型特征。
  • text: 字符串类型特征。
  • authors: 32位整数类型特征。
  • structure: 字符串列表类型特征。
  • site: 字符串类型特征。
  • multi-author: 布尔类型特征。
  • changes: 布尔列表类型特征。

wide

  • id: 字符串类型特征。
  • text: 字符串类型特征。
  • authors: 32位整数类型特征。
  • structure: 字符串列表类型特征。
  • site: 字符串类型特征。
  • multi-author: 布尔类型特征。
  • changes: 布尔列表类型特征。

数据分区

name train validation
narrow 3418 1713
wide 8030 4019
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作