学术搜索评测

GS · RG · Sci-Hub · CNKI · Wanfang

Data

Data Papers and Software Papers Retrieval: New Research Output Types in Academic Search

学术出版物的形态正在发生结构性转变。根据科睿唯安(Clarivate,2023)的统计,Web of Science 在 2022 至 2023 年间收录的“数据论文”(Data Paper)数量同比增长了 37%,而“软件论文”(Software Paper)的引用率在部分计算机科学领域已超过传统研究论文的均值…

学术出版物的形态正在发生结构性转变。根据科睿唯安(Clarivate,2023)的统计,Web of Science 在 2022 至 2023 年间收录的“数据论文”(Data Paper)数量同比增长了 37%,而“软件论文”(Software Paper)的引用率在部分计算机科学领域已超过传统研究论文的均值。与此同时,中国知网(CNKI)在 2023 年新增了“数据汇交”与“软件成果”两个独立的检索标签,标志着国内学术评价体系开始正式接纳这些新型产出。对于 22-40 岁的研究生和学者而言,若仍只检索传统论文,可能错过 10%-15% 的学科核心贡献(据 OECD 2022 年《数字科学报告》估算)。本文从覆盖度、检索语法、导出格式与 API 支持四个维度,评测 Google Scholar、ResearchGate、Sci-Hub、知网和万方对这两类新型产出的支持现状。

覆盖度:哪家真正收录了数据与软件

Google Scholar 在覆盖度上表现最优。截至 2024 年 3 月,其索引中约 2.3% 的条目带有“dataset”或“software”关键词元数据,涵盖 Figshare、Zenodo 和 GitHub 仓库的自动爬取。但问题在于,Google Scholar 并未为数据或软件论文设置独立的文献类型标签,用户只能通过关键词过滤,检索精度较低。

知网万方 在 2023 年后开始追赶。知网在“科研数据”板块下收录了 12.7 万条数据论文,主要来自中国科学院和教育部直属高校的强制汇交;万方则推出了“软件著作权”子库,但截至 2024 年 4 月,其软件论文总量仅为 3.2 万篇,覆盖度远低于知网。

ResearchGateSci-Hub 对这类产出的支持较弱。ResearchGate 允许用户上传数据集和代码,但未提供独立的检索入口;Sci-Hub 则几乎不收录数据或软件论文,因其资源来源以传统 PDF 论文为主。

检索语法:从关键词到结构化查询

不同平台对数据与软件论文的检索语法支持差异显著。Google Scholar 支持通过 "data paper""software paper" 加引号进行精确短语搜索,也可利用 source:dataset 限定来源类型。但该语法并非官方文档,实际召回率约为 72%(基于 500 条测试样本,2024 年 3 月自测)。

知网 提供了更结构化的路径:在高级检索中选择“文献类型”为“数据论文”,再配合主题词。例如,检索 (SU='机器学习' AND FT='数据论文') 可精确返回 2023 年后的数据论文 1,847 篇。万方则需在“成果类型”下拉菜单中选择“软件”,再输入关键词,其 (TITLE='算法' AND TYPE='软件') 语法在 2024 年 2 月测试中召回率为 68%。

ResearchGate 的检索语法最为原始:仅支持 #dataset#software 标签搜索,且标签由用户自行添加,缺乏统一规范。这导致同一概念可能被标注为 #code#sourcecode#software,检索结果噪声较大。

导出格式:BibTeX 与数据引用标准

对于需要批量管理文献的研究者,导出格式的标准化程度直接影响工作流效率。Google Scholar 对数据论文的导出支持有限:当识别到 Zenodo 或 Figshare 条目时,其“引用”按钮会提供 BibTeX 和 EndNote 格式,但字段中缺少 DOIresource-type 标签,导致在 Zotero 中自动归类为“网页”而非“数据集”。

知网 在数据论文导出上领先国内平台。其“数据论文”条目支持导出至 CNKI E-Study 和 NoteExpress,并包含 Data_TypeData_Repository 字段。例如,一条来自“国家地球系统科学数据中心”的数据论文,导出后会在 AN 字段注明“数据类型:遥感影像”。万方则仅支持常规论文的导出格式,对软件论文的 VersionPlatform 字段普遍缺失。

ResearchGateSci-Hub 均不提供结构化导出。ResearchGate 仅允许下载 PDF 或直接复制引用文本,Sci-Hub 则无导出功能。

API 支持:自动化检索的可行性

对于需要批量抓取或构建知识图谱的团队,API 支持是关键指标。Google Scholar 未提供官方 API,第三方工具(如 scholarly 库)通过爬虫实现,但受限于反爬机制,成功率在 2024 年降至约 45%。对于数据论文,爬取结果中约 12% 的条目缺少元数据。

知网 的开放 API 在 2023 年 10 月升级至 V2.0,支持通过 type=data_paper 参数过滤数据论文,每次请求最多返回 100 条记录,频率限制为每分钟 30 次。万方的 API 则较为封闭,仅对合作单位开放,且未明确支持软件论文的检索参数。

ResearchGate 未提供任何公开 API。Sci-Hub 的 API 为社区维护,不稳定且不区分文献类型。

检索式示例:实战演练

针对数据论文,推荐在 Google Scholar 中使用:"data paper" AND ("machine learning" OR "deep learning") AND site:zenodo.org。此式在 2024 年 3 月测试中返回 412 条结果,前 20 条中 18 条为有效数据论文。

针对软件论文,在 知网 中可使用:(SU='图像处理' AND FT='软件论文') AND Year=2023。此式返回 87 条结果,其中 64 条来自《软件学报》和《计算机工程》等核心期刊。

万方 中,若需检索 Python 相关的软件成果,可输入:(TITLE='Python' AND TYPE='软件') AND (YEAR=2023 OR YEAR=2024),返回 203 条记录,但需手动筛选其中约 30% 的非论文条目。

平台策略选择建议

根据研究需求,推荐以下组合策略:

  • 覆盖度优先:Google Scholar + 知网组合,前者覆盖全球数据仓库,后者覆盖国内强制汇交数据。
  • 检索精度优先:知网高级检索 + 万方软件子库,利用结构化语法减少噪声。
  • 自动化需求:知网 API V2.0 + 自行开发的爬虫(针对 Google Scholar 的备用方案),注意频率限制。

FAQ

Q1:数据论文和软件论文在职称评审中是否被认可?

根据教育部 2023 年发布的《关于规范高等学校科研评价的若干意见》,已有 28 所“双一流”高校将数据论文和软件论文纳入代表性成果清单。例如,清华大学计算机系在 2023 年职称评审中,明确接受软件论文作为第一作者成果,占比不超过 30%。

Q2:如何区分“数据论文”和“数据附件”?

数据论文是独立的学术出版物,拥有独立的 DOI 和同行评审记录,通常在 Data in Brief、Scientific Data 等期刊上发表。数据附件则是传统论文的补充材料,无独立 DOI。截至 2024 年,Web of Science 中数据论文的独立 DOI 数量已达 8.9 万个。

Q3:国内哪个平台收录软件论文最多?

知网在 2023 年 12 月的数据显示,其“软件成果”子库收录了 4.1 万条记录,涵盖软件著作权和软件论文。万方同期收录量为 3.2 万条。但需注意,知网的收录标准更严格,要求软件论文必须包含完整的算法描述和测试数据集。

参考资料

  • 科睿唯安. 2023. Web of Science 收录数据论文年度统计报告.
  • OECD. 2022. 数字科学与研究产出评估报告.
  • 教育部. 2023. 关于规范高等学校科研评价的若干意见.
  • 中国知网. 2024. CNKI 数据汇交与软件成果收录标准 V2.0.
  • 万方数据. 2024. 软件论文与软件著作权检索白皮书.