five

Autism Spectrum Disorder and Asperger Syndrome Question Answering Dataset 1.0

收藏
NIAID Data Ecosystem2026-03-13 收录
下载链接:
https://figshare.com/articles/dataset/Autism_Spectrum_DIsorder_and_Asperger_Syndrome_Question_Answering_Dataset_1_0/13295831
下载链接
链接失效反馈
官方服务:
资源简介:
RUS Последнее обновление: 13/09/2023 Набор данных предназначен для разработки русскоязычных диалоговых систем (чат-ботов, вопросно-ответных систем и т. д.) о расстройствах аутистического спектра. Источник текстов: https://aspergers.ru Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина. 75% данных собраны с помощью платформы Toloka. Состав набора данных: 1. original.json: оригинальная версия датасета 2. multiple.json: версия датасета с несколькими вариантами ответа 3. short.json: версия датасета с укороченными ответами 4. half_sized.json: версия датасета содержит 50% собранных данных 5. no_impossible.json: версия содержит только релевантные вопросы 7. age_dataset.tsv: набор данных для определения возраста пользователя (можно использовать для кастомизации моделей) ENG A dataset for question-answering used for building an informational Russian language chatbot for the inclusion of people with autism spectrum disorder and Asperger syndrome in particular, based on data from the following website: https://aspergers.ru. The detailed dataset statistics: Parameter Description The number of QA pairs 4,138 The number of irrelevant questions 352 The average question length 53 symbols / 8 words The average answer length 141 symbols / 20 words The average reading paragraph length 453 symbols / 63 words Max question length 226 symbols / 32 words Max answer length 555 symbols / 85 words Max reading paragraph length 551 symbols / 94 words Min question length 9 symbols / 2 words Min answer length 5 symbols / 1 words Min reading paragraph length 144 symbols / 17 words The dataset has several versions: 1. Original version 2. Half-sized version (50% of the original data) 3. No impossible version (a version without irrelevant/impossible questions) 4. Short version (a version with shorterned answers) 5. Multiple version (a version with several answers, all the other versions contain only one answer to each question)

最后更新时间:2023年9月13日 本数据集旨在开发面向孤独症谱系障碍(autism spectrum disorder)的俄语对话系统(包括聊天机器人、问答系统等)。文本来源:https://aspergers.ru 本项目由弗拉基米尔·波塔宁慈善基金会“个人慈善与利他主义实践”竞赛的获奖团队实施。 75%的数据通过Toloka(托洛卡)众包平台采集。 数据集组成如下: 1. original.json:数据集原始版本 2. multiple.json:包含多组候选答案的数据集版本 3. short.json:答案经过精简的数据集版本 4. half_sized.json:仅包含50%采集数据的精简版数据集 5. no_impossible.json:仅保留相关问题的数据集版本 7. age_dataset.tsv:用于用户年龄识别的数据集(可用于模型定制化) 本数据集为问答类数据集,用于构建面向孤独症谱系障碍(autism spectrum disorder)群体(尤其是阿斯伯格综合征(Asperger syndrome)群体)的俄语信息型聊天机器人,数据来源为https://aspergers.ru。 数据集详细统计参数如下: 参数 | 说明 --- | --- 问答对(Question-Answering pairs)总数 | 4138 无关问题数量 | 352 平均问题长度 | 53字符 / 8个单词 平均答案长度 | 141字符 / 20个单词 平均参考段落长度 | 453字符 / 63个单词 最长问题长度 | 226字符 / 32个单词 最长答案长度 | 555字符 / 85个单词 最长参考段落长度 | 551字符 / 94个单词 最短问题长度 | 9字符 / 2个单词 最短答案长度 | 5字符 / 1个单词 最短参考段落长度 | 144字符 / 17个单词 本数据集包含以下多个版本: 1. 原始版本 2. 半量精简版(仅包含50%的原始数据) 3. 无无效/无关问题版(剔除所有无关或无效问题的版本) 4. 精简答案版(答案经过压缩的版本) 5. 多候选答案版(包含多组候选答案,其余版本均为每个问题仅对应单一答案)
创建时间:
2020-11-27
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作