alexandrainst/ddisco
收藏Hugging Face2023-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/ddisco
下载链接
链接失效反馈官方服务:
资源简介:
DDisco数据集是一个用于训练模型以分类丹麦语语篇连贯性水平的数据集。数据集中的每个条目都标注了语篇连贯性标签(评分从1到3):1:低连贯性(难以理解,无组织,包含不必要的细节,无法简洁地总结);2:中等连贯性;3:高连贯性(易于理解,组织良好,仅包含支持主要观点的细节,可以简洁地总结)。语法和拼写错误被忽略(即它们不影响连贯性评分),并且文本的连贯性在其自身领域内考虑。
The DDisco dataset is a resource for training models to classify the discourse coherence level of Danish texts. Each entry in the dataset is annotated with a discourse coherence label, with scores ranging from 1 to 3: 1: Low coherence (difficult to understand, unstructured, contains unnecessary details, and cannot be concisely summarized); 2: Moderate coherence; 3: High coherence (easy to understand, well-organized, only includes details supporting the main viewpoints, and can be summarized concisely). Grammatical and spelling errors are ignored (i.e., they do not affect the coherence rating), and the coherence of the text is evaluated within its respective domain.
提供机构:
alexandrainst
原始信息汇总
数据集概述
基本信息
- 数据集名称:DDisco
- 语言:丹麦语(da)
- 语言生成者:专家生成
- 许可证:AFL-3.0
- 多语言性:单语种
- 大小类别:1K<n<10K
数据集内容
- 任务类别:文本分类
- 任务描述:用于训练模型以分类丹麦语语篇的连贯性水平。
- 特征:
- text:文本内容,数据类型为字符串。
- domain:文本所属领域,数据类型为字符串。
- rating:连贯性评分,数据类型为整数,范围从1到3。
- 1: 低连贯性(难以理解,组织混乱,包含不必要细节,难以简洁概括)
- 2: 中等连贯性
- 3: 高连贯性(易于理解,组织良好,仅包含支持主要观点的细节,易于简洁概括)
数据集分割
- 训练集:
- 样本数:801
- 字节数:815571
- 测试集:
- 样本数:201
- 字节数:209297
数据集大小
- 下载大小:672202字节
- 数据集总大小:1024868字节



