community-datasets/doqa|对话式问答数据集|特定领域FAQ数据集
收藏数据集卡片 for "doqa"
数据集结构
数据实例
cooking
- 下载的数据文件大小: 4.19 MB
- 生成的数据集大小: 11.31 MB
- 总磁盘使用量: 15.51 MB
训练集示例: json { "answers": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "background": ""So, over mixing batter forms gluten, which in turn hardens the cake. Fine.The problem is that I dont want lumps in the cakes, ...", "context": ""Milk wont help you - its mostly water, and gluten develops from flour (more accurately, specific proteins in flour) and water...", "followup": "n", "id": "C_64ce44d5f14347f488eb04b50387f022_q#2", "orig_answer": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "question": "Ok. What can I add to make it more softer and avoid hardening?", "title": "What to add to the batter of the cake to avoid hardening when the gluten formation cant be avoided?", "yesno": "x" }
movies
- 下载的数据文件大小: 4.19 MB
- 生成的数据集大小: 3.17 MB
- 总磁盘使用量: 7.36 MB
测试集示例: json { "answers": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "background": ""So, over mixing batter forms gluten, which in turn hardens the cake. Fine.The problem is that I dont want lumps in the cakes, ...", "context": ""Milk wont help you - its mostly water, and gluten develops from flour (more accurately, specific proteins in flour) and water...", "followup": "n", "id": "C_64ce44d5f14347f488eb04b50387f022_q#2", "orig_answer": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "question": "Ok. What can I add to make it more softer and avoid hardening?", "title": "What to add to the batter of the cake to avoid hardening when the gluten formation cant be avoided?", "yesno": "x" }
travel
- 下载的数据文件大小: 4.19 MB
- 生成的数据集大小: 3.22 MB
- 总磁盘使用量: 7.41 MB
测试集示例: json { "answers": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "background": ""So, over mixing batter forms gluten, which in turn hardens the cake. Fine.The problem is that I dont want lumps in the cakes, ...", "context": ""Milk wont help you - its mostly water, and gluten develops from flour (more accurately, specific proteins in flour) and water...", "followup": "n", "id": "C_64ce44d5f14347f488eb04b50387f022_q#2", "orig_answer": { "answer_start": [852], "text": ["CANNOTANSWER"] }, "question": "Ok. What can I add to make it more softer and avoid hardening?", "title": "What to add to the batter of the cake to avoid hardening when the gluten formation cant be avoided?", "yesno": "x" }
数据字段
所有拆分的数据字段相同。
cooking
title
: 字符串特征。background
: 字符串特征。context
: 字符串特征。question
: 字符串特征。id
: 字符串特征。answers
: 包含以下字段的字典特征:text
: 字符串特征。answer_start
: 整数特征。
followup
: 字符串特征。yesno
: 字符串特征。orig_answer
: 包含以下字段的字典特征:text
: 字符串特征。answer_start
: 整数特征。
movies
title
: 字符串特征。background
: 字符串特征。context
: 字符串特征。question
: 字符串特征。id
: 字符串特征。answers
: 包含以下字段的字典特征:text
: 字符串特征。answer_start
: 整数特征。
followup
: 字符串特征。yesno
: 字符串特征。orig_answer
: 包含以下字段的字典特征:text
: 字符串特征。answer_start
: 整数特征。
travel
title
: 字符串特征。background
: 字符串特征。context
: 字符串特征。question
: 字符串特征。id
: 字符串特征。answers
: 包含以下字段的字典特征:text
: 字符串特征。answer_start
: 整数特征。
followup
: 字符串特征。yesno
: 字符串特征。orig_answer
: 包含以下字段的字典特征:text
: 字符串特征。answer_start
: 整数特征。
数据拆分
cooking
train | validation | test | |
---|---|---|---|
cooking | 4612 | 911 | 1797 |
movies
test | |
---|---|
movies | 1884 |
travel
test | |
---|---|
travel | 1713 |

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
PoLaRIS Dataset
PoLaRIS数据集是由仁荷大学电气与计算机工程系创建的一个用于海上目标检测和跟踪的多模态数据集,基于Pohang Canal数据集。该数据集包含约36万张图像和19万条标注,涵盖了从大到小的多尺度对象标注,特别适用于海上无人船(USV)的安全导航。数据集通过多模态传感器(如RGB、TIR、LiDAR和Radar)获取数据,并提供了详细的障碍物检测和跟踪的地面真实数据。创建过程中采用了半自动标注方法,确保了标注的准确性和效率。该数据集主要应用于复杂海上环境中的自主导航系统,旨在提高海上无人船的障碍物检测和跟踪能力,从而提升海上安全。
arXiv 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录