five

somosnlp/LingComp_QA

收藏
Hugging Face2026-01-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/LingComp_QA
下载链接
链接失效反馈
官方服务:
资源简介:
LingComp_QA是一个西班牙语的计算语言学教育语料库,旨在为NLP和计算语言学初学者提供学习资源。数据集包含问答对,涵盖算法与形式主义、编程语言、CPU/GPU、Python编程、NLTK、SpaCy、计算语言学的历史与演变、语言学、语料库语言学等多个主题。数据集由团队成员手动整理和校对,来源于公开的博客、维基百科文章和课程材料。其目的是填补西班牙语NLP教育资源的空白,并作为教学工具用于开发交互式测验、教程和学习材料。

LingComp_QA is an educational corpus for computational linguistics in Spanish, designed as a learning resource for NLP and computational linguistics beginners. The dataset consists of question-answer pairs covering topics such as algorithms and formalisms, programming languages, CPU/GPU, Python programming, NLTK, SpaCy, the history and evolution of computational linguistics, linguistics, corpus linguistics, and more. It was manually curated by the team using open blogs, Wikipedia articles, and course materials. The dataset aims to address the lack of Spanish-language NLP educational resources and serve as a foundational tool for developing interactive quizzes, tutorials, and study materials.
提供机构:
somosnlp
原始信息汇总

数据集概述

基本信息

  • 名称: LingComp_QA
  • 语言: 西班牙语 (es-ES)
  • 许可证: Apache 2.0
  • 任务类别: 问答
  • 标签: 计算语言学, 西班牙语, NLP, JSON
  • 大小类别: 1K<n<10K

数据集详情

数据集描述

  • 维护者: Jorge Zamora Rey, Isabel Moyano Moreno, Mario Crespo Miguel
  • 资助者: SomosNLP, HuggingFace, Argilla, Instituto de Lingüística Aplicada de la Universidad de Cádiz

数据集来源

  • 仓库: https://github.com/reddrex/lingcomp_QA/tree/main
  • 论文: 即将发布

使用

直接使用

  • 目的: 教育用途,用于开发问答模型和创建教育工具,如交互式测验、教程和学习材料。

超出范围的使用

  • 不适用场景: 与计算语言学无关的任务,如图像处理或数值分析,以及任何商业用途。

数据集结构

  • 结构: JSON格式,包含问题和答案对。
  • 主题: 算法与形式主义、编程语言、CPU/GPU、Python、NLTK、SpaCy、计算语言学历史与演化等。

数据集创建

采集与处理

  • 来源: 博客、维基百科文章和大学课程材料。
  • 处理: 手动提取信息并创建问题,使用脚本生成JSON文件。

标注

  • 标注者: 团队成员。
  • 标注工具: Colaboratory笔记本。

偏差、风险和限制

  • 偏差: 可能源于信息来源的多样性和网络上的信息可用性。
  • 风险: 数据集可能不平衡,某些主题的信息可能较少。
  • 限制: 时间和资源的限制可能导致数据集覆盖不全。

许可证

  • 许可证: Apache 2.0

引用信息

  • BibTeX:

    @software{LingComp_QA, author = {Zamora Rey, Jorge and Crespo Miguel, Mario and Moyano Moreno, Isabel}, title = {LingComp_QA, un corpus educativo de lingüística computacional en español}, month = March, year = 2024, url = {https://huggingface.co/datasets/somosnlp/LingComp_QA} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作