five

malhajar/arc-tr

收藏
Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/malhajar/arc-tr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是土耳其语的大型语言模型(LLM)开发的一部分,旨在通过建立严格的土耳其语基准来评估土耳其语LLM的性能。数据集是`arc`数据集的土耳其语翻译版本,专门用于`OpenLLMTurkishLeaderboard`。数据集包含从论文`Think you have Solved Question Answering?`中提取的严格测试。数据集分为ARC-Challenge和ARC-Easy两个配置,每个配置包含训练、验证和测试三个分割。数据字段包括id、question、choices(包含text和label)和answerKey。

该数据集是土耳其语的大型语言模型(LLM)开发的一部分,旨在通过建立严格的土耳其语基准来评估土耳其语LLM的性能。数据集是`arc`数据集的土耳其语翻译版本,专门用于`OpenLLMTurkishLeaderboard`。数据集包含从论文`Think you have Solved Question Answering?`中提取的严格测试。数据集分为ARC-Challenge和ARC-Easy两个配置,每个配置包含训练、验证和测试三个分割。数据字段包括id、question、choices(包含text和label)和answerKey。
提供机构:
malhajar
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 问答
  • 任务ID:
    • 开放域问答
    • 多项选择问答
  • 语言: 土耳其语
  • 数据集大小: 10K<n<100K
  • PapersWithCode ID: arc
  • 美观名称: arc
  • 注释创建者: 发现
  • 语言创建者: 发现

数据集配置

ARC-Challenge

  • 特征:
    • id: 字符串
    • question: 字符串
    • choices: 序列字典,包含
      • text: 字符串
      • label: 字符串
    • answerKey: 字符串
  • 分割:
    • train: 374640 字节, 1118 样本
    • test: 402938 字节, 1171 样本
    • validation: 103674 字节, 298 样本

ARC-Easy

  • 特征:
    • id: 字符串
    • question: 字符串
    • choices: 序列字典,包含
      • text: 字符串
      • label: 字符串
    • answerKey: 字符串
  • 分割:
    • train: 663076 字节, 2250 样本
    • test: 702861 字节, 2375 样本
    • validation: 168076 字节, 569 样本

数据文件配置

ARC-Challenge

  • 数据文件:
    • train: ARC-Challenge/train-*
    • test: ARC-Challenge/test-*
    • validation: ARC-Challenge/validation-*

ARC-Easy

  • 数据文件:
    • train: ARC-Easy/train-*
    • test: ARC-Easy/test-*
    • validation: ARC-Easy/validation-*

数据实例

ARC-Challenge

  • 下载数据文件大小: 680.84 MB
  • 生成数据集大小: 0.83 MB
  • 总磁盘使用量: 681.67 MB
  • 训练样本示例: json { "answerKey": "B", "choices": { "label": ["A", "B", "C", "D"], "text": ["Buzdolabının kapısı pürüzsüz.", "Buzdolabının kapısı demir içerir.", "Buzdolabı kapısı iyi bir iletkendir.", "Buzdolabının kapısında elektrik kabloları vardır."] }, "id": "MCAS_2009_5_6516", "question": "Aşağıdaki ifadelerden hangisi mıknatısların neden genellikle buzdolabı kapısına yapıştığını en iyi şekilde açıklar?" }

ARC-Easy

  • 下载数据文件大小: 680.84 MB
  • 生成数据集大小: 1.45 MB
  • 总磁盘使用量: 682.29 MB
  • 训练样本示例: json { "answerKey": "A", "choices": { "label": ["A", "B", "C", "D"], "text": ["kutup sularında yüzmek", "çok miktarda balık yemek", "diğer hayvanlar tarafından avlanmak", "yüksek sıcaklığa sahip bir ortamda yaşamak"] }, "id": "Mercury_7188563", "question": "Belirli bir organizma, derisinin altındaki kalın yağ tabakası sayesinde bir ortamda hayatta kalabilir. Yağ tabakası hangi durumda hayatta kalma avantajına sahip olabilir?" }

数据字段

ARC-Challenge

  • id: 字符串特征
  • question: 字符串特征
  • choices: 字典特征,包含
    • text: 字符串特征
    • label: 字符串特征
  • answerKey: 字符串特征

ARC-Easy

  • id: 字符串特征
  • question: 字符串特征
  • choices: 字典特征,包含
    • text: 字符串特征
    • label: 字符串特征
  • answerKey: 字符串特征

数据分割

名称 训练 验证 测试
ARC-Challenge 1119 299 1172
ARC-Easy 2251 570 2376

引用信息

plaintext @article{allenai:arc, author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord}, title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge}, journal = {arXiv:1803.05457v1}, year = {2018}, }

数据集描述

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
malhajar/arc-tr是一个土耳其语问答数据集,它是ARC(AI2 Reasoning Challenge)的翻译版本,旨在为土耳其语大型语言模型建立基准测试。数据集包含ARC-Challenge和ARC-Easy两个子集,共7,781行数据,覆盖科学领域的多项选择问题,用于评估模型在开放域和多项选择问答任务上的推理能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作