hcfa/ncb
收藏Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hcfa/ncb
下载链接
链接失效反馈官方服务:
资源简介:
挪威逗号基准(NCB)数据集(版本0.1)是一个包含840对人工编写的挪威语句对的集合。这些句子是从公开可用的来源(如文章和政府报告)中手动收集的,旨在代表挪威非小说类文本,特别是政府公文。每个句子对测试一个挪威逗号规则:一个句子正确使用逗号,而另一个句子则包含错误的逗号用法。该数据集测试了需要逗号和不需要逗号的规则。数据集包含840个实例,每个实例由一对句子组成:一个正确使用标点符号,另一个错误使用标点符号。其中,600个实例包含需要逗号的句子,240个实例包含不需要逗号的句子。在需要逗号的600个句子中,大多数只需要一个逗号,而207个实例需要两个逗号。五个句子除了语法逗号外,还使用逗号作为小数分隔符。
挪威逗号基准(NCB)数据集(版本0.1)是一个包含840对人工编写的挪威语句对的集合。这些句子是从公开可用的来源(如文章和政府报告)中手动收集的,旨在代表挪威非小说类文本,特别是政府公文。每个句子对测试一个挪威逗号规则:一个句子正确使用逗号,而另一个句子则包含错误的逗号用法。该数据集测试了需要逗号和不需要逗号的规则。数据集包含840个实例,每个实例由一对句子组成:一个正确使用标点符号,另一个错误使用标点符号。其中,600个实例包含需要逗号的句子,240个实例包含不需要逗号的句子。在需要逗号的600个句子中,大多数只需要一个逗号,而207个实例需要两个逗号。五个句子除了语法逗号外,还使用逗号作为小数分隔符。
提供机构:
hcfa
原始信息汇总
数据集概述
数据集名称
- 名称: Norwegian Comma Benchmark (NCB)
数据集描述
- 描述: NCB 是一个包含840对人工编写的挪威语句子对的语料库,用于评估大型语言模型在挪威语句子中逗号放置的能力。
数据集特征
- 特征:
- Correct: 包含正确使用逗号的挪威语句子,类型为字符串。
- Wrong: 包含错误使用逗号的同一挪威语句子,类型为字符串。
- Category: 指示正确和错误句子对所测试规则的整数。
数据集结构
- 数据实例: 每个实例包含一对句子,一个正确使用逗号,另一个错误使用逗号。
- 数据字段:
- Correct: 正确使用逗号的句子。
- Wrong: 错误使用逗号的句子。
- Category: 规则编号。
数据集分布
- 实例数量: 840个实例。
- 规则分布: 600个实例需要逗号,240个实例不需要逗号。
数据集用途
- 用途: 用于测试和微调模型,以正确使用挪威语句子中的逗号。
数据集创建
- 数据来源: 从公开可用的文档中收集。
- 数据准备: 收集后,句子经过校对和轻微编辑,以确保与特定规则测试一致。
数据集规则
- 规则数量: 11个主要规则,以及额外的501至602规则。
数据集许可证
- 许可证: Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)。
数据集联系人
- 联系人: Hans Christian Farsethås 和 Joakim Tjøstheim。
数据集语言
- 语言: 挪威语(bokmål)。



