MMG/SpanishBFF
收藏数据集描述
数据集名称: Spanish Built Factual Freectianary (Spanish-BFF)
数据集简介: Spanish-BFF 是首个使用 GPT3 生成的西班牙语 AI 词典。
数据集概要
- 包含内容: 包含 66353 个词条及其定义(每个词条仅有一个定义)。
- 词条类型: 涵盖名词、形容词、动词和副词类别。
语言
- 语言: 西班牙语 (es)
数据集结构
数据实例
json { "id": "b0o8", "lemma": "fomo", "definition": "FOMO es un acrónimo de "miedo a perderse", y se refiere a la ansiedad que uno puede sentir cuando ve que otros están disfrutando de algo que él o ella no está haciendo." }
数据字段
json { "id": "str", "lemma": "str", "definition": "str" }
数据分割
| 分割 | 大小 |
|---|---|
train |
66,353 |
内容分析
词性数量统计
- 名词数量: 38093 (57.41 %)
- 形容词数量: 17424 (26.26 %)
- 动词数量: 9296 (14.01 %)
- 副词数量: 1540 (2.32 %)
统计信息
- 定义中的总词数: 551878
- 平均每个定义的词数: 8.3 +/- 5.1 词
- 平均每个定义的字符数: 49.1 +/- 28.4 字符
数据集创建
提示生成
每个定义都是通过以下提示批量生成的:
plaintext Generate in Spanish a definition of the word "[word]"
使用数据集的注意事项
数据集的社会影响
该语料库是首个由 LLMs 生成的开源完整词典。我们旨在促进 NLP 的更好理解和开发,并推广负责任的使用。
偏见和幻觉
此版本尚未经过后处理以减轻 AI 模型可能生成的潜在错误、偏见或幻觉。
引用
plaintext @misc{https://doi.org/10.48550/arxiv.2302.12746, doi = {10.48550/ARXIV.2302.12746}, url = {https://arxiv.org/abs/2302.12746}, author = {Ortega-Martín, Miguel and García-Sierra, Óscar and Ardoiz, Alfonso and Armenteros, Juan Carlos and Álvarez, Jorge and Alonso, Adrián}, keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {Spanish Built Factual Freectianary (Spanish-BFF): the first AI-generated free dictionary}, publisher = {arXiv}, year = {2023}, copyright = {Creative Commons Attribution 4.0 International} }



