five

MMG/SpanishBFF

收藏
Hugging Face2023-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MMG/SpanishBFF
下载链接
链接失效反馈
官方服务:
资源简介:
Spanish-BFF是第一个由GPT-3生成的西班牙语词典数据集。该数据集包含66,353个词条及其定义,涵盖了名词、形容词、动词和副词等词类。数据集的创建过程是通过批量生成每个词条的定义,并且没有经过后处理来减少潜在的AI模型生成的错误、偏见或幻觉。数据集的目标是促进对NLP的理解和发展,并推动负责任的使用。

Spanish-BFF是第一个由GPT-3生成的西班牙语词典数据集。该数据集包含66,353个词条及其定义,涵盖了名词、形容词、动词和副词等词类。数据集的创建过程是通过批量生成每个词条的定义,并且没有经过后处理来减少潜在的AI模型生成的错误、偏见或幻觉。数据集的目标是促进对NLP的理解和发展,并推动负责任的使用。
提供机构:
MMG
原始信息汇总

数据集描述

数据集名称: Spanish Built Factual Freectianary (Spanish-BFF)

数据集简介: Spanish-BFF 是首个使用 GPT3 生成的西班牙语 AI 词典。

数据集概要

  • 包含内容: 包含 66353 个词条及其定义(每个词条仅有一个定义)。
  • 词条类型: 涵盖名词、形容词、动词和副词类别。

语言

  • 语言: 西班牙语 (es)

数据集结构

数据实例

json { "id": "b0o8", "lemma": "fomo", "definition": "FOMO es un acrónimo de "miedo a perderse", y se refiere a la ansiedad que uno puede sentir cuando ve que otros están disfrutando de algo que él o ella no está haciendo." }

数据字段

json { "id": "str", "lemma": "str", "definition": "str" }

数据分割

分割 大小
train 66,353

内容分析

词性数量统计

  • 名词数量: 38093 (57.41 %)
  • 形容词数量: 17424 (26.26 %)
  • 动词数量: 9296 (14.01 %)
  • 副词数量: 1540 (2.32 %)

统计信息

  • 定义中的总词数: 551878
  • 平均每个定义的词数: 8.3 +/- 5.1 词
  • 平均每个定义的字符数: 49.1 +/- 28.4 字符

数据集创建

提示生成

每个定义都是通过以下提示批量生成的:

plaintext Generate in Spanish a definition of the word "[word]"

使用数据集的注意事项

数据集的社会影响

该语料库是首个由 LLMs 生成的开源完整词典。我们旨在促进 NLP 的更好理解和开发,并推广负责任的使用。

偏见和幻觉

此版本尚未经过后处理以减轻 AI 模型可能生成的潜在错误、偏见或幻觉。

引用

plaintext @misc{https://doi.org/10.48550/arxiv.2302.12746, doi = {10.48550/ARXIV.2302.12746}, url = {https://arxiv.org/abs/2302.12746}, author = {Ortega-Martín, Miguel and García-Sierra, Óscar and Ardoiz, Alfonso and Armenteros, Juan Carlos and Álvarez, Jorge and Alonso, Adrián}, keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {Spanish Built Factual Freectianary (Spanish-BFF): the first AI-generated free dictionary}, publisher = {arXiv}, year = {2023}, copyright = {Creative Commons Attribution 4.0 International} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作