rebiber

rebiber

学术引用自动规范化工具

Rebiber是一个开源的学术引用规范化工具。它可以自动将arXiv预印本引用更新为正式会议发表版本,并统一引用格式。该工具利用DBLP和ACL Anthology的官方数据,支持多个主要学术会议。Rebiber还提供缩写和字段选择功能,方便研究人员生成规范的参考文献列表。

Rebiber文献引用规范化DBLPBibTeXarXivGithub开源项目

Rebiber: 一个用于规范化bibtex的官方信息工具

<p> <a href="https://huggingface.co/spaces/yuchenlin/Rebiber"> <img src="https://img.shields.io/badge/🤗 Web%20演示--red?style=flat_square"> </a> <a href="https://colab.research.google.com/drive/12oQcLs25CFjI4evsFlWfKD1DfTEiqyCN?usp=sharing"> <img src="https://img.shields.io/badge/Colab%20笔记本--green?style=flat_square&logo=googlecolab"> </a> <a href="https://twitter.com/billyuchenlin/status/1353850378438070272?s=20"> <img src="https://img.shields.io/badge/推文--blue?style=flat_square&logo=twitter"> </a> </p>

我们经常引用论文的arXiv版本,而没有注意到它们已经在某些会议上__发表__了。这些非官方的参考文献条目可能违反了一些会议的投稿或最终版本规则。 我们推出了__Rebiber__,一个简单的Python工具,可以自动修复这些问题。它基于DBLPACL anthology(针对NLP会议)的官方会议信息!您可以在这里查看支持的会议列表。 除了处理过时的arXiv引用外,__Rebiber__还以统一的方式(DBLP风格)规范化引用,支持缩写和值选择。

Huggingface Space上的演示 https://huggingface.co/spaces/yuchenlin/Rebiber (推荐)

Colab笔记本: 链接

更新日志

  • 2023.06.01 新的演示可在Huggingface的Space上通过Gradio使用。此外,添加了一些新的会议。

  • 2021.09.06 我们修复了一些小bug,并添加了诸如排序和arXiv链接(如果论文不在任何会议中;感谢@nicola-decao)等功能。我们还将ACL anthology的bib/json更新到最新版本,以及其他会议。

  • 2021.05.30 我们构建了Rebiber网页应用beta版本;向我们的数据集添加了新的会议;修复了一些小bug。(它已不再工作。请使用新的huggingface space演示。)

  • 2021.02.08 我们现在支持多个有用的功能:1) 关闭某些特定值,例如,"-r url,pages,address"用于从输出中删除这些值,2) 使用缩写来缩短booktitle值,例如,Proceedings of the .* Annual Meeting of the Association for Computational Linguistics --> Proc. of ACL。更多示例在这里。

  • 2021.01.30 我们构建了一个colab笔记本作为简单的网页演示。链接

安装

# pip install rebiber -U # 稳定版本 pip install -e git+https://github.com/yuchenlin/rebiber.git#egg=rebiber -U # rebiber --update # (可选) 更新bib数据和缩写信息 (使用wget)

或者

git clone https://github.com/yuchenlin/rebiber.git cd rebiber/ pip install -e .

如果您想使用最新的github版本,其中包含更多bug修复,请使用第二种安装方法。

使用方法(v1.1.3)

使用官方会议信息规范化您的bibtex文件:

rebiber -i /path/to/input.bib -o /path/to/output.bib

您可以在rebiber/example_input.bibrebiber/example_output.bib中找到一对示例输入和输出文件。

参数用途
-i--input_bib。您想要更新的输入bib文件的路径
-o--output_bib。您想要保存的输出bib文件的路径。如果您没有指定-o,那么它将与-i相同。
-r--remove。您想要删除的值名称的逗号分隔列表,例如"-r pages,editor,volume,month,url,biburl,address,publisher,bibsource,timestamp,doi"。默认为__空__。
-s--shorten。布尔参数,默认为"False",用于将booktitle替换为-a中的缩写。使用-s True
-d--deduplicate。布尔参数,默认为"True",用于删除共享相同键的重复bib条目。使用-d True
-l--bib_list。要加载的bib json文件列表的路径。查看rebiber/bib_list.txt获取默认文件。通常您不需要设置此参数。
-a--abbr_tsv。会议缩写数据列表。查看rebiber/abbr.tsv获取默认文件。通常您不需要设置此参数。
-u--update。使用最新的Github版本更新本地bib相关数据。
-v--version。打印当前Rebiber的版本。
-st--sort。布尔参数,默认为"False"。用于保持输入文件中bib条目的原始顺序。将其设置为"True"时,输出文件中的bib条目按字母顺序排序。使用-st True

示例输入和输出

一个带有arXiv信息的示例输入条目(来自Google Scholar或其他地方):

@article{lin2020birds, title={Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models}, author={Lin, Bill Yuchen and Lee, Seyeon and Khanna, Rahul and Ren, Xiang}, journal={arXiv preprint arXiv:2005.00683}, year={2020} }

一个带有官方信息的规范化示例输出条目:

@inproceedings{lin2020birds, title = "鸟有四条腿?!NumSense:探索预训练语言模型的数值常识知识", author = "林比尔宇晨 和 李世妍 和 卡纳拉胡尔 和 任翔", booktitle = "2020年自然语言处理实证方法会议论文集(EMNLP)", month = "11月", year = "2020", address = "线上", publisher = "计算语言学协会", url = "https://www.aclweb.org/anthology/2020.emnlp-main.557", doi = "10.18653/v1/2020.emnlp-main.557", pages = "6862--6868", } ## 支持的会议 `bib_list.txt`包含已转换为json格式的官方bib数据列表。目前本仓库支持完整的[ACL anthology](https://www.aclweb.org/anthology/),即所有在*CL会议(ACL、EMNLP、NAACL等)及其工作坊发表的论文。 此外,我们还支持任何可从DBLP下载的会议论文集,例如ICLR2020。 请注意,DBLP只允许每次下载1000条记录,使用&h=1000&f=0,其中f=0|1000|2000指定起始索引。因此我们需要手动下载每个会议的bib文件并将它们拼接在一起。`add_conf.sh`脚本也会处理这个问题。 以下会议受支持,它们的bib/json文件位于我们的`data`文件夹中。您可以在`bib_list.txt`中开启或关闭每一项。**欢迎按照[此处](#添加新会议)的说明创建PR来添加新会议!** | 名称 | 年份 | | --- | ----------- | | ACL Anthology | (截至2023-06) | | AAAI | 2010 -- 2020 | | AISTATS | 2013 -- 2020 | | ALENEX | 2010 -- 2020 | | ASONAM | 2010 -- 2019 | | BigDataConf | 2013 -- 2019 | | BMVC | 2010 -- 2020 | | CHI | 2010 -- 2020 | | CIDR | 2009 -- 2020 | | CIKM | 2010 -- 2020 | | COLT | 2000 -- 2020 | | CVPR | 2000 -- 2020 | | ICASSP | 2015 -- 2020 | | ICCV | 2003 -- 2019 | | ICLR | 2013 -- 2020 | | ICML | 2000 -- 2020 | | IJCAI | 2011 -- 2020 | | INTERSPEECH | 2016 -- 2021 | | KDD | 2010 -- 2020 | | MLSys | 2019 -- 2020 | | MM | 2016 -- 2020 | | NeurIPS | 2000 -- 2020 | | RECSYS | 2010 -- 2020 | | SDM | 2010 -- 2020 | | SIGIR | 2010 -- 2020 | | SIGMOD | 2010 -- 2020 | | SODA | 2010 -- 2020 | | STOC | 2010 -- 2020 | | UAI | 2010 -- 2020 | | WSDM | 2008 -- 2020 | | WWW (网络会议) | 2001 -- 2020 | **感谢[Anton Tsitsulin](http://tsitsul.in/)在收集如此完整的bib文件集方面所做的出色工作!** ## 添加新会议 您可以通过从DBLP下载bib文件到我们的`raw_data`文件夹,并运行准备好的脚本`add_conf.sh`来手动添加任何会议。 以ICLR2020和ICLR2019为例: - 步骤1:访问[DBLP](https://dblp.org/db/conf/iclr/iclr2020.html) - 步骤2:下载bib文件,并将它们放在此处作为`raw_data/iclr2020.bib`和`raw_data/iclr2019.bib`(名称应采用{conf_name}{year}.bib的格式) - 步骤3:运行脚本 ```bash bash add_conf.sh iclr 2019 2020

特别地,要更新*CL会议,我们可以

python bib2json.py -i raw_data/anthology.bib -o data/acl.json

星标历史

Star History Chart

联系方式

如果您有任何问题或建议,请发送电子邮件至yuchen.lin@usc.edu或在此创建GitHub问题。

编辑推荐精选

博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

下拉加载更多