CAPP-130|隐私政策分析数据集|个人信息保护数据集
收藏数据集概述
数据集名称
- CAPP-130: A Corpus of Chinese Application Privacy Policy Summarization and Interpretation
数据集内容
- 隐私政策数量: 130个中文隐私政策
- 注释数量: 52,489个注释
- 重写句子数量: 20,555个重写句子
数据集特点
- 由法律专家精心注释和解释,确保内容的准确性和专业性。
- 包含多种数据实践类别,如信息收集、权限获取、共享与披露等。
数据集应用
- 用于训练和测试TCSI-pp框架,该框架能够根据用户选择的话题类别提取相关句子,并使用生成模型重写这些句子,以便公众理解。
数据集统计信息
基本统计
- 数据实践类别: 12种
- 各类别数量: 从6967(信息收集)到110(运营终止)不等
- 各类别百分比: 从0.3%(运营终止)到52.8%(重要)不等
预切片数据信息
- 用于训练TCSI-pp的数据集: 包括重要识别数据集、风险识别数据集、话题识别数据集和重写句子数据集。
- 各数据集样本数量: 训练、验证和测试样本数量详细列出。
TCSI-pp框架
功能
- 提取与用户指定话题相关的句子。
- 使用生成模型重写句子,强调可能的风险内容,提高公众理解度。
模型使用
- 提供多种分类模型(如RoBERTa, BERT等)用于重要性和风险识别。
- 提供生成模型(如mT5, Bert2Bert等)用于句子重写。
评估指标
- 分类模型评估指标包括F1分数。
- 重写模型评估指标包括ROUGE, Bert-score等。
TCSI-pp-zh工具
功能
- 结合最有效的RoBERTa和mT5模型,用于中文应用隐私政策的摘要生成。
- 实验表明,TCSI-pp-zh在摘要生成任务中优于GPT-4和其他模型。
使用方法
- 提供详细的训练和测试代码示例,用户可根据需要调整参数。
引用信息
- 如果使用本数据集或代码,请引用相关文献。

Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录