MMG/spanishBFF2
收藏数据集描述
数据集名称: Spanish Built Factual Freectianary 2 (Spanish-BFF-2)
数据集简介: Spanish-BFF-2 是使用 GPT-4 生成的第二个西班牙语 AI 词典。包含 76,963 个词条及其定义,涵盖名词、形容词、动词和副词类别。
语言: 西班牙语 (es)
数据集大小: 10K<n<100K
多语言性: 单语种
标注创建者: AI 生成
许可证: gpl-3.0
数据集结构
数据实例
plaintext "retransmisión= [{"pos_tag": "Nombre femenino", "definition": "Acción y efecto de retransmitir un evento, generalmente por televisión o radio.", "example": "La retransmisión del partido de fútbol fue vista por millones de personas."}]
数据字段
plaintext { pos_tag: str definition: str example: str }
数据分割
| 分割 | 大小 |
|---|---|
train |
76,963 |
使用数据集的注意事项
数据集的社会影响
该语料库是第二个由 LLM 生成的开源完整词典。旨在促进对 NLP 的更好理解和开发,并推广负责任的使用。
偏见和幻觉
此版本尚未经过后处理以减轻 AI 模型可能生成的潜在错误、偏见或幻觉。
引用
plaintext @misc{ortegamartín2024building, title={Building another Spanish dictionary, this time with GPT-4}, author={Miguel Ortega-Martín and Óscar García-Sierra and Alfonso Ardoiz and Juan Carlos Armenteros and Ignacio Garrido and Jorge Álvarez and Camilo Torrón and Iñigo Galdeano and Ignacio Arranz and Oleg Vorontsov and Adrián Alonso}, year={2024}, eprint={2406.11218}, archivePrefix={arXiv}, primaryClass={id=cs.CL full_name=Computation and Language is_active=True alt_name=cmp-lg in_archive=cs is_general=False description=Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.} }



