five

iapp/iapp_wiki_qa_squad

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/iapp/iapp_wiki_qa_squad
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - expert-generated language_creators: - found language: - th license: - mit multilinguality: - monolingual size_categories: - 1K<n<10K source_datasets: - extended|other-iapp-wiki-qa-dataset task_categories: - question-answering task_ids: - extractive-qa - open-domain-qa paperswithcode_id: null pretty_name: IappWikiQaSquad dataset_info: features: - name: question_id dtype: string - name: article_id dtype: string - name: title dtype: string - name: context dtype: string - name: question dtype: string - name: answers sequence: - name: text dtype: string - name: answer_start dtype: int32 - name: answer_end dtype: int32 config_name: iapp_wiki_qa_squad splits: - name: train num_bytes: 16107541 num_examples: 5761 - name: validation num_bytes: 2120768 num_examples: 742 - name: test num_bytes: 2032016 num_examples: 739 download_size: 2876630 dataset_size: 20260325 --- # Dataset Card for `iapp_wiki_qa_squad` ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://github.com/iapp-technology/iapp-wiki-qa-dataset - **Repository:** https://github.com/iapp-technology/iapp-wiki-qa-dataset - **Paper:** - **Leaderboard:** - **Point of Contact:** https://github.com/iapp-technology/iapp-wiki-qa-dataset ### Dataset Summary `iapp_wiki_qa_squad` is an extractive question answering dataset from Thai Wikipedia articles. It is adapted from [the original iapp-wiki-qa-dataset](https://github.com/iapp-technology/iapp-wiki-qa-dataset) to [SQuAD](https://rajpurkar.github.io/SQuAD-explorer/) format, resulting in 5761/742/739 questions from 1529/191/192 articles. ### Supported Tasks and Leaderboards extractive question answering ### Languages Thai ## Dataset Structure ### Data Instances An example from the dataset: ``` {'article_id': '0U2lA8nJQESIxbZrjZQc', 'question_id': '0U2lA8nJQESIxbZrjZQc_000', 'context': 'นายสุวัฒน์ วรรณศิริกุล (1 พฤศจิกายน พ.ศ. 2476 - 31 กรกฎาคม พ.ศ. 2555) อดีตรองหัวหน้าพรรคพลังประชาชน อดีตประธานสมาชิกสภาผู้แทนราษฎร และประธานภาคกรุงเทพมหานคร พรรคพลังประชาชน อดีตสมาชิกสภาผู้แทนราษฎรกรุงเทพมหานครหลายสมัย ได้รับการเลือกตั้งเป็นสมาชิกสภาผู้แทนราษฎรครั้งแรกในปี พ.ศ. 2529 ในสังกัดพรรคประชากรไทย และสังกัดพรรคพลังประชาชน เป็นพรรคสุดท้าย', 'question': 'สุวัฒน์ วรรณศิริกุล เกิดวันที่เท่าไร', 'answers': {'text': ['1 พฤศจิกายน พ.ศ. 2476'], 'answer_start': [24], 'answer_end': [45]}, 'title': 'สุวัฒน์ วรรณศิริกุล', 'created_by': 'gmnjGRF0y0g7QRZDd9Qgz3AgiHJ3', 'created_on': '2019-08-18 05:05:51.358000+00:00', 'is_pay': {'date': None, 'status': False}} {'article_id': '01KZTrxgvC5mOovXFMPJ', 'question_id': '01KZTrxgvC5mOovXFMPJ_000', 'context': 'พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. 2533) หรือชื่อเล่นว่า อร เป็นนักแสดงหญิงชาวไทย สำเร็จมัธยมศึกษาจากCatholic Cathedral College ประเทศนิวซีแลนด์ และปริญญาตรีจากRaffles International College สาขา Business Marketing\n\nเข้าสู่วงการตั้งแต่อายุ 6 ขวบ จากการแสดงละครเวทีกับ ครูชลประคัลภ์ จันทร์เรือง จากนั้นก็เล่นโฆษณาในวัยเด็ก 2- 3 ชิ้น และยังเคยแสดงช่วงละครสั้น ในรายการซุปเปอร์จิ๋ว ประมาณปี 2542\n\nปัจจุบันเป็นทั้ง นักแสดง , พิธีกร และ วีเจ อยู่ที่คลื่น เก็ท 102.5 Bangkok International Hits Music Station และยังเป็นพิธีกรให้กับช่อง ทรู มิวสิก', 'question': 'พัทธ์ธีรา ศรุติพงศ์โภคิน เกิดวันที่เท่าไร', 'answers': {'text': ['3 ธันวาคม พ.ศ. 2533'], 'answer_start': [31], 'answer_end': [50]}, 'title': 'พัทธ์ธีรา ศรุติพงศ์โภคิน', 'created_by': 'gmnjGRF0y0g7QRZDd9Qgz3AgiHJ3', 'created_on': '2019-08-07 14:00:38.778000+00:00', 'is_pay': {'status': True, 'total': 2.5, 'date': '2019-08-13 10:47:28.095000+00:00'}} ``` ### Data Fields ``` { "question_id": question id "article_id": article id "title": article title "context": article texts "question": question "answers": { "text": answer text "answer_start": answer beginning position "answer_end": answer exclusive upper bound position } ), } ``` ### Data Splits | | train | valid | test | |-------------|-------|-------|------| | # questions | 5761 | 742 | 739 | | # articles | 1529 | 191 | 192 | ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization From the original `iapp-wiki-qa-dataset`, [@cstorm125](https://github.com/cstorm125/) applied the following processing: - Select questions with one, non-empty answer - Select questions whose answers match `textDetection` fields - Select questions whose answers are 100-character long or shorter - 80/10/10 train-validation-split at article level #### Who are the source language producers? Wikipedia authors for contexts and annotators hired by [iApp](https://iapp.co.th/) for questions and answer annotations ### Annotations #### Annotation process Annotators hired by [iApp](https://iapp.co.th/) are asked create questions and answers for each article. #### Who are the annotators? Annotators hired by [iApp](https://iapp.co.th/) ### Personal and Sensitive Information All contents are from Wikipedia. No personal and sensitive information is expected to be included. ## Considerations for Using the Data ### Social Impact of Dataset - open-domain, extractive question answering in Thai ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators Original dataset by [iApp](https://iapp.co.th/). SQuAD formattting by [PyThaiNLP](https://github.com/PyThaiNLP/). ### Licensing Information MIT ### Citation Information ``` @dataset{kobkrit_viriyayudhakorn_2021_4539916, author = {Kobkrit Viriyayudhakorn and Charin Polpanumas}, title = {iapp\_wiki\_qa\_squad}, month = feb, year = 2021, publisher = {Zenodo}, version = 1, doi = {10.5281/zenodo.4539916}, url = {https://doi.org/10.5281/zenodo.4539916} } ``` ### Contributions Thanks to [@cstorm125](https://github.com/cstorm125) for adding this dataset.
提供机构:
iapp
原始信息汇总

数据集概述

数据集名称: iapp_wiki_qa_squad

语言: 泰语

许可证: MIT

数据集大小:

  • 训练集:5761个问题
  • 验证集:742个问题
  • 测试集:739个问题

数据集结构:

  • 数据实例: 每个实例包含问题ID、文章ID、标题、上下文、问题和答案。
  • 数据字段:
    • question_id: 问题ID
    • article_id: 文章ID
    • title: 文章标题
    • context: 文章内容
    • question: 问题
    • answers:
      • text: 答案文本
      • answer_start: 答案起始位置
      • answer_end: 答案结束位置

任务类别: 抽取式问答、开放领域问答

数据集创建:

  • 源数据: 来自iapp-wiki-qa-dataset,由iApp雇佣的注释者进行问题和答案的注释。
  • 注释过程: 注释者为每篇文章创建问题和答案。

许可证信息: MIT

引用信息:

@dataset{kobkrit_viriyayudhakorn_2021_4539916, author = {Kobkrit Viriyayudhakorn and Charin Polpanumas}, title = {iapp_wiki_qa_squad}, month = feb, year = 2021, publisher = {Zenodo}, version = 1, doi = {10.5281/zenodo.4539916}, url = {https://doi.org/10.5281/zenodo.4539916} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作