Autism Spectrum Disorder and Asperger Syndrome Question Answering Dataset 1.0

NIAID Data Ecosystem2026-03-13 收录

下载链接：

https://figshare.com/articles/dataset/Autism_Spectrum_DIsorder_and_Asperger_Syndrome_Question_Answering_Dataset_1_0/13295831

下载链接

链接失效反馈

官方服务：

资源简介：

RUS Последнее обновление: 13/09/2023 Набор данных предназначен для разработки русскоязычных диалоговых систем (чат-ботов, вопросно-ответных систем и т. д.) о расстройствах аутистического спектра. Источник текстов: https://aspergers.ru Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина. 75% данных собраны с помощью платформы Toloka. Состав набора данных: 1. original.json: оригинальная версия датасета 2. multiple.json: версия датасета с несколькими вариантами ответа 3. short.json: версия датасета с укороченными ответами 4. half_sized.json: версия датасета содержит 50% собранных данных 5. no_impossible.json: версия содержит только релевантные вопросы 7. age_dataset.tsv: набор данных для определения возраста пользователя (можно использовать для кастомизации моделей) ENG A dataset for question-answering used for building an informational Russian language chatbot for the inclusion of people with autism spectrum disorder and Asperger syndrome in particular, based on data from the following website: https://aspergers.ru. The detailed dataset statistics: Parameter Description The number of QA pairs 4,138 The number of irrelevant questions 352 The average question length 53 symbols / 8 words The average answer length 141 symbols / 20 words The average reading paragraph length 453 symbols / 63 words Max question length 226 symbols / 32 words Max answer length 555 symbols / 85 words Max reading paragraph length 551 symbols / 94 words Min question length 9 symbols / 2 words Min answer length 5 symbols / 1 words Min reading paragraph length 144 symbols / 17 words The dataset has several versions: 1. Original version 2. Half-sized version (50% of the original data) 3. No impossible version (a version without irrelevant/impossible questions) 4. Short version (a version with shorterned answers) 5. Multiple version (a version with several answers, all the other versions contain only one answer to each question)

最后更新时间：2023年9月13日本数据集旨在开发面向孤独症谱系障碍（autism spectrum disorder）的俄语对话系统（包括聊天机器人、问答系统等）。文本来源：https://aspergers.ru 本项目由弗拉基米尔·波塔宁慈善基金会“个人慈善与利他主义实践”竞赛的获奖团队实施。 75%的数据通过Toloka（托洛卡）众包平台采集。数据集组成如下： 1. original.json：数据集原始版本 2. multiple.json：包含多组候选答案的数据集版本 3. short.json：答案经过精简的数据集版本 4. half_sized.json：仅包含50%采集数据的精简版数据集 5. no_impossible.json：仅保留相关问题的数据集版本 7. age_dataset.tsv：用于用户年龄识别的数据集（可用于模型定制化）本数据集为问答类数据集，用于构建面向孤独症谱系障碍（autism spectrum disorder）群体（尤其是阿斯伯格综合征（Asperger syndrome）群体）的俄语信息型聊天机器人，数据来源为https://aspergers.ru。数据集详细统计参数如下：参数 | 说明 --- | --- 问答对（Question-Answering pairs）总数 | 4138 无关问题数量 | 352 平均问题长度 | 53字符 / 8个单词平均答案长度 | 141字符 / 20个单词平均参考段落长度 | 453字符 / 63个单词最长问题长度 | 226字符 / 32个单词最长答案长度 | 555字符 / 85个单词最长参考段落长度 | 551字符 / 94个单词最短问题长度 | 9字符 / 2个单词最短答案长度 | 5字符 / 1个单词最短参考段落长度 | 144字符 / 17个单词本数据集包含以下多个版本： 1. 原始版本 2. 半量精简版（仅包含50%的原始数据） 3. 无无效/无关问题版（剔除所有无关或无效问题的版本） 4. 精简答案版（答案经过压缩的版本） 5. 多候选答案版（包含多组候选答案，其余版本均为每个问题仅对应单一答案）

创建时间：

2020-11-27

5,000+

优质数据集

54 个

任务类型

进入经典数据集