five

hcfa/ncb

收藏
Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hcfa/ncb
下载链接
链接失效反馈
官方服务:
资源简介:
挪威逗号基准(NCB)数据集(版本0.1)是一个包含840对人工编写的挪威语句对的集合。这些句子是从公开可用的来源(如文章和政府报告)中手动收集的,旨在代表挪威非小说类文本,特别是政府公文。每个句子对测试一个挪威逗号规则:一个句子正确使用逗号,而另一个句子则包含错误的逗号用法。该数据集测试了需要逗号和不需要逗号的规则。数据集包含840个实例,每个实例由一对句子组成:一个正确使用标点符号,另一个错误使用标点符号。其中,600个实例包含需要逗号的句子,240个实例包含不需要逗号的句子。在需要逗号的600个句子中,大多数只需要一个逗号,而207个实例需要两个逗号。五个句子除了语法逗号外,还使用逗号作为小数分隔符。

挪威逗号基准(NCB)数据集(版本0.1)是一个包含840对人工编写的挪威语句对的集合。这些句子是从公开可用的来源(如文章和政府报告)中手动收集的,旨在代表挪威非小说类文本,特别是政府公文。每个句子对测试一个挪威逗号规则:一个句子正确使用逗号,而另一个句子则包含错误的逗号用法。该数据集测试了需要逗号和不需要逗号的规则。数据集包含840个实例,每个实例由一对句子组成:一个正确使用标点符号,另一个错误使用标点符号。其中,600个实例包含需要逗号的句子,240个实例包含不需要逗号的句子。在需要逗号的600个句子中,大多数只需要一个逗号,而207个实例需要两个逗号。五个句子除了语法逗号外,还使用逗号作为小数分隔符。
提供机构:
hcfa
原始信息汇总

数据集概述

数据集名称

  • 名称: Norwegian Comma Benchmark (NCB)

数据集描述

  • 描述: NCB 是一个包含840对人工编写的挪威语句子对的语料库,用于评估大型语言模型在挪威语句子中逗号放置的能力。

数据集特征

  • 特征:
    • Correct: 包含正确使用逗号的挪威语句子,类型为字符串。
    • Wrong: 包含错误使用逗号的同一挪威语句子,类型为字符串。
    • Category: 指示正确和错误句子对所测试规则的整数。

数据集结构

  • 数据实例: 每个实例包含一对句子,一个正确使用逗号,另一个错误使用逗号。
  • 数据字段:
    • Correct: 正确使用逗号的句子。
    • Wrong: 错误使用逗号的句子。
    • Category: 规则编号。

数据集分布

  • 实例数量: 840个实例。
  • 规则分布: 600个实例需要逗号,240个实例不需要逗号。

数据集用途

  • 用途: 用于测试和微调模型,以正确使用挪威语句子中的逗号。

数据集创建

  • 数据来源: 从公开可用的文档中收集。
  • 数据准备: 收集后,句子经过校对和轻微编辑,以确保与特定规则测试一致。

数据集规则

  • 规则数量: 11个主要规则,以及额外的501至602规则。

数据集许可证

  • 许可证: Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)。

数据集联系人

  • 联系人: Hans Christian Farsethås 和 Joakim Tjøstheim。

数据集语言

  • 语言: 挪威语(bokmål)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作