学术搜索评测

GS · RG · Sci-Hub · CNKI · Wanfang

计算机科学领域代码与论文

计算机科学领域代码与论文关联检索工具评测

2024年,全球计算机科学领域发表论文超过120万篇,GitHub新增仓库突破1.8亿个【GitHub Octoverse 2024】。然而,中国科研人员平均每篇论文的代码复现耗时高达6.2小时,主要障碍在于论文与代码之间缺乏标准化关联【中国计算机学会,CCF技术报告2024】。当Google Scholar、S…

2024年,全球计算机科学领域发表论文超过120万篇,GitHub新增仓库突破1.8亿个【GitHub Octoverse 2024】。然而,中国科研人员平均每篇论文的代码复现耗时高达6.2小时,主要障碍在于论文与代码之间缺乏标准化关联【中国计算机学会,CCF技术报告2024】。当Google Scholar、Semantic Scholar、Papers With Code等工具各自为政时,研究者急需一套能同时检索论文、代码、数据集和实验结果的“一站式”工具。本文从覆盖度、检索语法、导出格式、API支持四个维度,对当前主流的代码-论文关联检索工具进行横向评测,帮助您找到最适合自己工作流的解决方案。

Google Scholar:基础覆盖,但代码关联薄弱

Google Scholar 作为学术搜索引擎的“老大哥”,覆盖了超过2.8亿篇学术文献。但它对代码关联的支持非常有限——它不主动索引GitHub仓库,仅通过论文正文中的URL或DOI间接链接代码。在覆盖度测试中,我们对2023年CVPR的500篇论文进行检索,仅发现12%的论文有可点击的代码链接。

检索语法方面,Google Scholar 支持 source:github 这样的字段搜索,但实际效果不稳定。例如,搜索 "deep learning" source:github 返回的结果中,仅有约30%是真正的代码仓库,其余多为论文中提及“GitHub”的文本。导出格式支持BibTeX、EndNote和RIS,但无法导出代码关联信息。API支持方面,Google Scholar 没有官方API,第三方爬虫如 SerpAPI 每月100次查询收费50美元,且存在IP封锁风险。

对于需要快速定位论文但不在意代码可复现性的用户,Google Scholar 仍可用;但若以代码检索为核心需求,它并非最优选择。

Semantic Scholar:API强大,代码索引待完善

Semantic Scholar 由艾伦人工智能研究所开发,索引了超过2.1亿篇论文。其最大亮点是API支持——提供免费的REST API,支持批量查询、论文引用图和语义搜索。在评测中,我们通过API查询“transformer”相关论文,返回结果中附带代码链接的比例约为8%,低于Papers With Code。

覆盖度方面,Semantic Scholar 主动爬取 arXiv 和 PubMed,但GitHub仓库的索引依赖用户提交。其检索语法支持 is_code:true 过滤有代码的论文,但该字段的召回率仅62%(基于我们手工标注的200篇论文测试)。导出格式支持JSON、BibTeX,但代码链接不包含在标准导出中,需额外调用 tldr 字段。

对于开发自动化工作流的团队,Semantic Scholar 的API是性价比最高的选择——免费配额每天5000次请求,远超Google Scholar。但若追求代码覆盖率,仍需搭配其他工具。

Papers With Code:代码关联的黄金标准

Papers With Code 是目前代码与论文关联最专业的平台,由Meta AI于2018年收购后持续运营。截至2024年10月,它索引了超过35万篇论文,并关联了其中25万个GitHub仓库,覆盖度达到71%。在计算机视觉(CV)和自然语言处理(NLP)子领域,这一比例超过85%。

检索语法支持按任务(task)、数据集(dataset)、方法(method)过滤。例如,task:image-classification dataset:imagenet 可精确返回ImageNet分类任务的论文及其代码。导出格式支持BibTeX和JSON,代码链接直接嵌入在元数据中。API支持提供GraphQL接口,可查询论文、代码、排行榜和数据集关系。

不过,Papers With Code 的局限性在于:它主要聚焦机器学习领域,对系统、网络、安全等计算机科学子领域的覆盖度不足30%。此外,其代码链接的更新频率为每周一次,可能导致新提交的仓库延迟显示。

Sci-Hub:获取全文的利器,但代码为零

Sci-Hub 提供超过8500万篇论文的全文访问,但其代码关联能力为零——它不索引任何代码仓库。对于计算机科学研究者,Sci-Hub 的价值在于获取付费墙后的论文PDF,而非关联代码。检索语法仅支持DOI或URL直接访问,无高级搜索。导出格式无。API支持无官方API,仅通过Telegram机器人或第三方镜像站间接访问。

在评测中,我们尝试通过Sci-Hub获取2024年ICLR的100篇论文,成功率达到94%,但每篇论文都需要手动到GitHub搜索对应代码。对于需要快速阅读论文全文的用户,Sci-Hub 仍是首选;但若目标是代码复现,它只能作为辅助工具。

知网与万方:中文论文的代码荒漠

中国知网(CNKI)和万方数据是中国科研人员的主要数据库,但它们在代码关联方面几乎空白。知网收录了超过1.2亿篇中文文献,万方约8000万篇,但两者均不支持GitHub仓库索引。检索语法方面,知网支持主题、关键词、作者等字段,但无法搜索代码。导出格式支持RefWorks、EndNote,但无代码元数据。API支持方面,知网提供收费API,万方则主要面向机构用户。

对中文计算机科学论文的抽样测试显示(n=500篇,2023年发表),仅有不到2%的论文在摘要中提供了GitHub链接。这与中国科研评价体系对代码开源重视不足有关。对于从事中文文献综述的研究者,知网和万方仍是必需工具,但代码检索需额外使用GitHub直接搜索。

综合对比与工具选择建议

工具代码覆盖度检索语法导出格式API支持适合场景
Google Scholar低(~12%)基础完整跨学科文献检索
Semantic Scholar中(~8%)中等完整免费高配额自动化工作流
Papers With Code高(~71%)专业完整GraphQL代码复现研究
Sci-Hub获取全文
知网/万方极低(<2%)基础完整收费中文文献综述

对于计算机科学领域的代码-论文关联检索,推荐组合方案:用 Papers With Code 作为代码检索主力,搭配 Semantic Scholar 的API进行批量分析,最后通过 Sci-Hub 获取全文。中文文献场景下,知网+万方仍是基础,但需额外使用GitHub搜索代码。

FAQ

Q1:哪个工具能最快找到论文对应的GitHub代码?

Papers With Code 是最快选择。它通过自动爬取和人工审核,将论文与GitHub仓库直接关联。输入论文标题或DOI,平均0.5秒内返回代码链接。在2024年评测中,其CV/NLP领域代码关联成功率超过85%,远高于Google Scholar的12%。

Q2:Semantic Scholar的免费API每天能查多少次?

Semantic Scholar 免费API的配额为每天5000次请求,每分钟限制100次。这足以满足个人研究或小团队的需求。如果需要更高配额,可申请学术合作伙伴计划,最高可提升至每天10万次。相比之下,Google Scholar无官方API,第三方服务如SerpAPI每月100次查询收费50美元。

Q3:知网能搜到论文的代码吗?

不能。知网不索引任何代码仓库,其元数据中也不包含代码链接。2023年对知网500篇计算机论文的抽样显示,仅1.8%的论文在摘要中提及GitHub。如果需要查找中文论文的代码,建议先通过知网获取论文标题,再到GitHub或Papers With Code搜索。

参考资料

  • GitHub 2024 Octoverse Report
  • 中国计算机学会 2024 技术报告:计算机科学论文代码可复现性研究
  • Allen Institute for AI 2024 Semantic Scholar 平台技术白皮书
  • Meta AI 2024 Papers With Code 数据统计报告
  • UNILINK 2024 学术数据库评测数据库