community-datasets/style_change_detection
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/style_change_detection
下载链接
链接失效反馈官方服务:
资源简介:
风格变化检测数据集的目的是识别多作者文档中作者切换的文本位置。检测这些位置是作者身份识别过程的关键部分,也是多作者文档分析的关键部分。数据集分为两种配置:narrow和wide,每种配置都有特定的特征和分割。特征包括id、text、authors、structure、site、multi-author和changes。数据集分为训练集和验证集,并提供了每种配置的详细统计信息。访问该数据集需要从Zenodo申请。
风格变化检测数据集的目的是识别多作者文档中作者切换的文本位置。检测这些位置是作者身份识别过程的关键部分,也是多作者文档分析的关键部分。数据集分为两种配置:narrow和wide,每种配置都有特定的特征和分割。特征包括id、text、authors、structure、site、multi-author和changes。数据集分为训练集和验证集,并提供了每种配置的详细统计信息。访问该数据集需要从Zenodo申请。
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集描述
数据集摘要
StyleChangeDetection 数据集的目标是识别多作者文档中作者切换的文本位置。这是作者身份识别过程的关键部分,也是多作者文档分析的通用需求。
数据集结构
数据实例
narrow
- 下载的数据文件大小: 0.00 MB
- 生成的数据集大小: 60.94 MB
- 总磁盘使用量: 60.94 MB
一个 validation 示例如下: json { "authors": 2, "changes": [false, false, true, false], "id": "2", "multi-author": true, "site": "exampleSite", "structure": ["A1", "A2"], "text": "This is text from example problem 2. " }
wide
- 下载的数据文件大小: 0.00 MB
- 生成的数据集大小: 146.26 MB
- 总磁盘使用量: 146.26 MB
一个 train 示例如下: json { "authors": 2, "changes": [false, false, true, false], "id": "2", "multi-author": true, "site": "exampleSite", "structure": ["A1", "A2"], "text": "This is text from example problem 2. " }
数据字段
所有分区的数据字段相同。
narrow
id: 字符串类型特征。text: 字符串类型特征。authors: 32位整数类型特征。structure: 字符串列表类型特征。site: 字符串类型特征。multi-author: 布尔类型特征。changes: 布尔列表类型特征。
wide
id: 字符串类型特征。text: 字符串类型特征。authors: 32位整数类型特征。structure: 字符串列表类型特征。site: 字符串类型特征。multi-author: 布尔类型特征。changes: 布尔列表类型特征。
数据分区
| name | train | validation |
|---|---|---|
| narrow | 3418 | 1713 |
| wide | 8030 | 4019 |



