LaCour!|法律NLP数据集|人权法数据集
收藏数据集概述
数据集名称
- LaCour! Corpus
数据集内容
- LaCour! Corpus 包含154个欧洲人权法院听证会的完整文本记录,总计2.1百万字符,来自超过267小时的视频资料,涵盖英语、法语及其他法院语言。
数据集结构
-
子集:transcripts
- 包含154个听证会的文本记录。
- 提供两种格式:
.xml
和.txt
。 - 两种格式均包含以下信息:
- webcast_id
- Role
- Name
- Begin
- End
- Language
- text
-
子集:documents
- 包含与听证会相关的所有文档信息,这些文档来自HUDOC数据库,通过应用号与听证会关联。
- 每个文档实例包含以下信息:
- id
- webcast_id
- hearing_date
- hearing_title
- hearing_type
- appno
- case_id
- case_name
- case_url
- type
- typedescription
- document_date
- collection
- importance
- court
- issue
- represented_by
- respondent
- articles
- strasbourg_caselaw
- external_sources
- conclusion
- separate_opinion
- judges
- ecli
数据集用途
- 用于研究欧洲人权法院中的论证,特别是听证会中的问题与异议意见之间的相互作用。
- 作为法律自然语言处理的研究资源。
- 作为法律学生或其他感兴趣方的学习资源。
数据集访问
- 数据集可在以下链接免费访问:Huggingface Dataset
联系人
- Lena Held
- 邮箱:lena.held@tu-darmstadt.de

CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)
中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。
地球大数据科学工程 收录