DBLP Records and Entries for Key Computer Science Conferences
收藏doi.org2016-03-27 更新2025-03-24 收录
下载链接:
http://doi.org/10.17632/3p9w84t5mr.1
下载链接
链接失效反馈官方服务:
资源简介:
The dataset ”DBLP-CSR.zip” is derived from September 17, 2015 snapshot of dblp bibliography database. It contains the last 16 years (2000 − 2015) of publications records of 81 Computer Science Research conferences used for a study conducted in our paper Women in Computer Science Research- What is Bibliography Data Telling Us? published in ACM SIGCAS Computers and Society Newsletter, Volume 46, Issue 1, February 2016. Link to the Newsletter Archive: http://dl.acm.org/citation.cfm?id=J198
The dataset contains 7 .sql files and a README file providing the description of dataset and attributes. The seven .sql files are primarily named as affiliation_coord.sql, affiliation.sql, author_gender.sql, authors.sql, editor_gender.sql, editor.sql and main.sql.
The affiliation_coord.sql, affiliation.sql, authors.sql, editor.sql files create the tables with same name. While main.sql, editor_gender.sql and author_gender.sql create tables with the names general, genedit and genauth old respectively.
Followings are the list and description of all attributes used in the dataset. Same attributes used in different tables are listed only once.
1. Table- general
k- unique id of each article- primary key in the table.
year- the year of publication
conf- abbreviation for conference name (HT for ACM HyperText)
crossref- cross reference link to all articles published in a conference in a year
cs, de, se, th- a binary attribute denoting if a conference belongs to these domains (Computer Science, Data Engineering, Software Engineering, Theory)
publisher- Name of the conference publisher
link- unique DOI link to the article that re-directs to conference publisher page.
2. Table- authors
pos- position of author in the paper. 0 denotes first author
name- unique name of author in dblp dataset
gender- gender of authors. Hyphen (-) denotes that gender was not determined. Please refer to the paper for more details.
prob- probability of a name to be M, F, -.
3. Table- editors
k- foreign key for crossref attribute in general table
pos- position of editor in conference. 0 denotes the first editor.
4. Table- genauth_old and genedit
contain the records of gender information of authors and editors- derived from authors and editors tables.
5. Table- affiliation
affil- affiliation record of each author publishing in the 81 conferences mentioned above.
year- year of publication
6. Table- affiliation_coord
country- country of the author extracted from affiliation
country_code- code to be used for maps
lat, lng- latitude and longitude information of affiliation.
数据集“DBLP-CSR.zip”源自于2015年9月17日的dblp文摘数据库快照。该数据集收录了自2000年至2015年的81个计算机科学研究会议的出版物记录,这些记录被用于我们发表的论文《计算机科学研究中的女性——文摘数据究竟在告诉我们什么?》中,该论文发表于ACM SIGCAS计算机与社会通讯,第46卷,第1期,2016年2月。通讯档案链接:http://dl.acm.org/citation.cfm?id=J198。
数据集包含7个.sql文件和一个README文件,README文件提供了数据集及属性的描述。这7个.sql文件分别为:affiliation_coord.sql、affiliation.sql、author_gender.sql、authors.sql、editor_gender.sql、editor.sql和main.sql。
其中,affiliation_coord.sql、affiliation.sql、authors.sql和editor.sql文件创建了同名的表。而main.sql、editor_gender.sql和author_gender.sql则创建了general、genedit和genauth_old等旧有名称的表。
以下是数据集中所有属性的列表及其描述。不同表中使用的相同属性仅列出一次。
1. 表- general
k - 每篇文章的唯一标识符,该表的主键。
year - 发表年份
conf - 会议名称的缩写(HT代表ACM HyperText)
crossref - 指向该年度会议所发表所有文章的交叉引用链接
cs, de, se, th - 二进制属性,表示会议是否属于这些领域(计算机科学、数据工程、软件工程、理论)
publisher - 会议出版者的名称
link - 指向文章唯一DOI链接的唯一DOI链接,该链接可重定向至会议出版者页面。
2. 表- authors
pos - 作者在论文中的位置。0表示第一作者
name - dblp数据集中作者的唯一名称
gender - 作者的性别。破折号(-)表示性别未确定。请参阅论文以获取更多详细信息
prob - 名字被判定为M、F或-的概率。
3. 表- editors
k - general表中的crossref属性的对应外键
pos - 编辑在会议中的位置。0表示第一编辑。
4. 表- genauth_old和genedit
包含作者和编辑的性别信息记录,这些信息来源于作者和编辑表。
5. 表- affiliation
affil - 在上述81个会议中发表文章的作者的所属机构记录
year - 发表年份
6. 表- affiliation_coord
country - 从所属机构中提取的作者所在国家
country_code - 用于地图的代码
lat, lng - 机构所在地的纬度和经度信息。
提供机构:
doi.org



