hcfa/ncb

Name: hcfa/ncb
Creator: hcfa
Published: 2024-05-24 14:18:23
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/hcfa/ncb

下载链接

链接失效反馈

官方服务：

资源简介：

挪威逗号基准（NCB）数据集（版本0.1）是一个包含840对人工编写的挪威语句对的集合。这些句子是从公开可用的来源（如文章和政府报告）中手动收集的，旨在代表挪威非小说类文本，特别是政府公文。每个句子对测试一个挪威逗号规则：一个句子正确使用逗号，而另一个句子则包含错误的逗号用法。该数据集测试了需要逗号和不需要逗号的规则。数据集包含840个实例，每个实例由一对句子组成：一个正确使用标点符号，另一个错误使用标点符号。其中，600个实例包含需要逗号的句子，240个实例包含不需要逗号的句子。在需要逗号的600个句子中，大多数只需要一个逗号，而207个实例需要两个逗号。五个句子除了语法逗号外，还使用逗号作为小数分隔符。

提供机构：

hcfa

原始信息汇总

数据集概述

数据集名称

名称: Norwegian Comma Benchmark (NCB)

数据集描述

描述: NCB 是一个包含840对人工编写的挪威语句子对的语料库，用于评估大型语言模型在挪威语句子中逗号放置的能力。

数据集特征

特征:
- Correct: 包含正确使用逗号的挪威语句子，类型为字符串。
- Wrong: 包含错误使用逗号的同一挪威语句子，类型为字符串。
- Category: 指示正确和错误句子对所测试规则的整数。

数据集结构

数据实例: 每个实例包含一对句子，一个正确使用逗号，另一个错误使用逗号。
数据字段:
- Correct: 正确使用逗号的句子。
- Wrong: 错误使用逗号的句子。
- Category: 规则编号。

数据集分布

实例数量: 840个实例。
规则分布: 600个实例需要逗号，240个实例不需要逗号。

数据集用途

用途: 用于测试和微调模型，以正确使用挪威语句子中的逗号。

数据集创建

数据来源: 从公开可用的文档中收集。
数据准备: 收集后，句子经过校对和轻微编辑，以确保与特定规则测试一致。

数据集规则

规则数量: 11个主要规则，以及额外的501至602规则。

数据集许可证

许可证: Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)。

数据集联系人

联系人: Hans Christian Farsethås 和 Joakim Tjøstheim。

数据集语言

语言: 挪威语（bokmål）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集