rebiber

rebiber

学术引用自动规范化工具

Rebiber是一个开源的学术引用规范化工具。它可以自动将arXiv预印本引用更新为正式会议发表版本,并统一引用格式。该工具利用DBLP和ACL Anthology的官方数据,支持多个主要学术会议。Rebiber还提供缩写和字段选择功能,方便研究人员生成规范的参考文献列表。

Rebiber文献引用规范化DBLPBibTeXarXivGithub开源项目

Rebiber: 一个用于规范化bibtex的官方信息工具

<p> <a href="https://huggingface.co/spaces/yuchenlin/Rebiber"> <img src="https://img.shields.io/badge/🤗 Web%20演示--red?style=flat_square"> </a> <a href="https://colab.research.google.com/drive/12oQcLs25CFjI4evsFlWfKD1DfTEiqyCN?usp=sharing"> <img src="https://img.shields.io/badge/Colab%20笔记本--green?style=flat_square&logo=googlecolab"> </a> <a href="https://twitter.com/billyuchenlin/status/1353850378438070272?s=20"> <img src="https://img.shields.io/badge/推文--blue?style=flat_square&logo=twitter"> </a> </p>

我们经常引用论文的arXiv版本,而没有注意到它们已经在某些会议上__发表__了。这些非官方的参考文献条目可能违反了一些会议的投稿或最终版本规则。 我们推出了__Rebiber__,一个简单的Python工具,可以自动修复这些问题。它基于DBLPACL anthology(针对NLP会议)的官方会议信息!您可以在这里查看支持的会议列表。 除了处理过时的arXiv引用外,__Rebiber__还以统一的方式(DBLP风格)规范化引用,支持缩写和值选择。

Huggingface Space上的演示 https://huggingface.co/spaces/yuchenlin/Rebiber (推荐)

Colab笔记本: 链接

更新日志

  • 2023.06.01 新的演示可在Huggingface的Space上通过Gradio使用。此外,添加了一些新的会议。

  • 2021.09.06 我们修复了一些小bug,并添加了诸如排序和arXiv链接(如果论文不在任何会议中;感谢@nicola-decao)等功能。我们还将ACL anthology的bib/json更新到最新版本,以及其他会议。

  • 2021.05.30 我们构建了Rebiber网页应用beta版本;向我们的数据集添加了新的会议;修复了一些小bug。(它已不再工作。请使用新的huggingface space演示。)

  • 2021.02.08 我们现在支持多个有用的功能:1) 关闭某些特定值,例如,"-r url,pages,address"用于从输出中删除这些值,2) 使用缩写来缩短booktitle值,例如,Proceedings of the .* Annual Meeting of the Association for Computational Linguistics --> Proc. of ACL。更多示例在这里。

  • 2021.01.30 我们构建了一个colab笔记本作为简单的网页演示。链接

安装

# pip install rebiber -U # 稳定版本 pip install -e git+https://github.com/yuchenlin/rebiber.git#egg=rebiber -U # rebiber --update # (可选) 更新bib数据和缩写信息 (使用wget)

或者

git clone https://github.com/yuchenlin/rebiber.git cd rebiber/ pip install -e .

如果您想使用最新的github版本,其中包含更多bug修复,请使用第二种安装方法。

使用方法(v1.1.3)

使用官方会议信息规范化您的bibtex文件:

rebiber -i /path/to/input.bib -o /path/to/output.bib

您可以在rebiber/example_input.bibrebiber/example_output.bib中找到一对示例输入和输出文件。

参数用途
-i--input_bib。您想要更新的输入bib文件的路径
-o--output_bib。您想要保存的输出bib文件的路径。如果您没有指定-o,那么它将与-i相同。
-r--remove。您想要删除的值名称的逗号分隔列表,例如"-r pages,editor,volume,month,url,biburl,address,publisher,bibsource,timestamp,doi"。默认为__空__。
-s--shorten。布尔参数,默认为"False",用于将booktitle替换为-a中的缩写。使用-s True
-d--deduplicate。布尔参数,默认为"True",用于删除共享相同键的重复bib条目。使用-d True
-l--bib_list。要加载的bib json文件列表的路径。查看rebiber/bib_list.txt获取默认文件。通常您不需要设置此参数。
-a--abbr_tsv。会议缩写数据列表。查看rebiber/abbr.tsv获取默认文件。通常您不需要设置此参数。
-u--update。使用最新的Github版本更新本地bib相关数据。
-v--version。打印当前Rebiber的版本。
-st--sort。布尔参数,默认为"False"。用于保持输入文件中bib条目的原始顺序。将其设置为"True"时,输出文件中的bib条目按字母顺序排序。使用-st True

示例输入和输出

一个带有arXiv信息的示例输入条目(来自Google Scholar或其他地方):

@article{lin2020birds, title={Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models}, author={Lin, Bill Yuchen and Lee, Seyeon and Khanna, Rahul and Ren, Xiang}, journal={arXiv preprint arXiv:2005.00683}, year={2020} }

一个带有官方信息的规范化示例输出条目:

@inproceedings{lin2020birds, title = "鸟有四条腿?!NumSense:探索预训练语言模型的数值常识知识", author = "林比尔宇晨 和 李世妍 和 卡纳拉胡尔 和 任翔", booktitle = "2020年自然语言处理实证方法会议论文集(EMNLP)", month = "11月", year = "2020", address = "线上", publisher = "计算语言学协会", url = "https://www.aclweb.org/anthology/2020.emnlp-main.557", doi = "10.18653/v1/2020.emnlp-main.557", pages = "6862--6868", } ## 支持的会议 `bib_list.txt`包含已转换为json格式的官方bib数据列表。目前本仓库支持完整的[ACL anthology](https://www.aclweb.org/anthology/),即所有在*CL会议(ACL、EMNLP、NAACL等)及其工作坊发表的论文。 此外,我们还支持任何可从DBLP下载的会议论文集,例如ICLR2020。 请注意,DBLP只允许每次下载1000条记录,使用&h=1000&f=0,其中f=0|1000|2000指定起始索引。因此我们需要手动下载每个会议的bib文件并将它们拼接在一起。`add_conf.sh`脚本也会处理这个问题。 以下会议受支持,它们的bib/json文件位于我们的`data`文件夹中。您可以在`bib_list.txt`中开启或关闭每一项。**欢迎按照[此处](#添加新会议)的说明创建PR来添加新会议!** | 名称 | 年份 | | --- | ----------- | | ACL Anthology | (截至2023-06) | | AAAI | 2010 -- 2020 | | AISTATS | 2013 -- 2020 | | ALENEX | 2010 -- 2020 | | ASONAM | 2010 -- 2019 | | BigDataConf | 2013 -- 2019 | | BMVC | 2010 -- 2020 | | CHI | 2010 -- 2020 | | CIDR | 2009 -- 2020 | | CIKM | 2010 -- 2020 | | COLT | 2000 -- 2020 | | CVPR | 2000 -- 2020 | | ICASSP | 2015 -- 2020 | | ICCV | 2003 -- 2019 | | ICLR | 2013 -- 2020 | | ICML | 2000 -- 2020 | | IJCAI | 2011 -- 2020 | | INTERSPEECH | 2016 -- 2021 | | KDD | 2010 -- 2020 | | MLSys | 2019 -- 2020 | | MM | 2016 -- 2020 | | NeurIPS | 2000 -- 2020 | | RECSYS | 2010 -- 2020 | | SDM | 2010 -- 2020 | | SIGIR | 2010 -- 2020 | | SIGMOD | 2010 -- 2020 | | SODA | 2010 -- 2020 | | STOC | 2010 -- 2020 | | UAI | 2010 -- 2020 | | WSDM | 2008 -- 2020 | | WWW (网络会议) | 2001 -- 2020 | **感谢[Anton Tsitsulin](http://tsitsul.in/)在收集如此完整的bib文件集方面所做的出色工作!** ## 添加新会议 您可以通过从DBLP下载bib文件到我们的`raw_data`文件夹,并运行准备好的脚本`add_conf.sh`来手动添加任何会议。 以ICLR2020和ICLR2019为例: - 步骤1:访问[DBLP](https://dblp.org/db/conf/iclr/iclr2020.html) - 步骤2:下载bib文件,并将它们放在此处作为`raw_data/iclr2020.bib`和`raw_data/iclr2019.bib`(名称应采用{conf_name}{year}.bib的格式) - 步骤3:运行脚本 ```bash bash add_conf.sh iclr 2019 2020

特别地,要更新*CL会议,我们可以

python bib2json.py -i raw_data/anthology.bib -o data/acl.json

星标历史

Star History Chart

联系方式

如果您有任何问题或建议,请发送电子邮件至yuchen.lin@usc.edu或在此创建GitHub问题。

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星��火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多