five

MMG/spanishBFF2

收藏
Hugging Face2024-06-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/MMG/spanishBFF2
下载链接
链接失效反馈
官方服务:
资源简介:
Spanish-BFF-2是使用GPT-4生成的第二个西班牙语词典,包含了76,963个词条及其定义。这些词条涵盖了名词、形容词、动词和副词等词性。数据集旨在促进自然语言处理(NLP)的理解和发展,并推动负责任的使用。该版本尚未经过后处理以减轻AI模型可能生成的错误、偏见或幻觉。

Spanish-BFF-2 is the second Spanish AI-generated dictionary using GPT-4, containing a total of 76,963 lemmas with their definitions. These lemmas correspond to nominal, adjectival, verbal, and adverbial classes. The dataset aims to contribute to a better understanding and development of NLP and promote responsible use. This version has not been postprocessed to mitigate potential errors, biases, or hallucinations the AI model could have generated.
提供机构:
MMG
原始信息汇总

数据集描述

数据集名称: Spanish Built Factual Freectianary 2 (Spanish-BFF-2)
数据集简介: Spanish-BFF-2 是使用 GPT-4 生成的第二个西班牙语 AI 词典。包含 76,963 个词条及其定义,涵盖名词、形容词、动词和副词类别。
语言: 西班牙语 (es)
数据集大小: 10K<n<100K
多语言性: 单语种
标注创建者: AI 生成
许可证: gpl-3.0

数据集结构

数据实例

plaintext "retransmisión= [{"pos_tag": "Nombre femenino", "definition": "Acción y efecto de retransmitir un evento, generalmente por televisión o radio.", "example": "La retransmisión del partido de fútbol fue vista por millones de personas."}]

数据字段

plaintext { pos_tag: str definition: str example: str }

数据分割

分割 大小
train 76,963

使用数据集的注意事项

数据集的社会影响

该语料库是第二个由 LLM 生成的开源完整词典。旨在促进对 NLP 的更好理解和开发,并推广负责任的使用。

偏见和幻觉

此版本尚未经过后处理以减轻 AI 模型可能生成的潜在错误、偏见或幻觉。

引用

plaintext @misc{ortegamartín2024building, title={Building another Spanish dictionary, this time with GPT-4}, author={Miguel Ortega-Martín and Óscar García-Sierra and Alfonso Ardoiz and Juan Carlos Armenteros and Ignacio Garrido and Jorge Álvarez and Camilo Torrón and Iñigo Galdeano and Ignacio Arranz and Oleg Vorontsov and Adrián Alonso}, year={2024}, eprint={2406.11218}, archivePrefix={arXiv}, primaryClass={id=cs.CL full_name=Computation and Language is_active=True alt_name=cmp-lg in_archive=cs is_general=False description=Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作