一个使用卷积神经网络从正样本和未标记样本中训练,用于冷冻电子显微镜图像中进行粒子检测的流程。Topaz还包括使用深度去噪模型对显微图和断层图进行去噪的方法。
请查看我们的讨论部分,获取使用Topaz的一般帮助、建议和技巧。您也可以在这里找到我们的文档网站。
支持CUDA的Nvidia GPU,用于GPU加速。
基本的Unix/Linux知识。
<details><summary>(推荐)点击这里使用Anaconda安装</summary><p>
如果您没有Anaconda Python发行版,请按照他们网站上的说明进行安装。
我们强烈建议将Topaz安装到单独的conda环境中。要为Topaz创建一个conda环境:
conda create -n topaz python=3.6 # 如果您喜欢Python 2,可以使用2.7
source activate topaz # 这会切换到topaz conda环境,如果anaconda版本 >= 4.4且配置正确,可以使用'conda activate topaz'
# source deactivate # 返回到基础conda环境
有关conda环境的更多信息可以在这里找到。
要安装预编译的Topaz包及其依赖项(包括pytorch):
conda install topaz -c tbepler -c pytorch
这会从官方渠道安装pytorch。要为特定CUDA版本安装pytorch,您需要添加'cudatoolkit=X.X'包。例如,要为CUDA 9.0安装pytorch:
conda install cudatoolkit=9.0 -c pytorch
或者将其合并为一个命令:
conda install topaz cudatoolkit=9.0 -c tbepler -c pytorch
有关pytorch安装的其他说明,请参见这里。
就是这样!Topaz现在已经安装在您的anaconda环境中了。
</p></details><details><summary>点击这里使用Pip安装</summary><p>
我们强烈建议将Topaz安装到_虚拟环境_中。请参见virtualenv的安装说明和用户指南。
要为Python 3.X安装Topaz
pip3 install topaz-em
为Python 2.7安装
pip install topaz-em
有关pytorch安装的其他说明,包括如何为特定CUDA版本安装pytorch,请参见这里。
就是这样!Topaz现在已通过pip安装完成。
</p></details><details><summary>点击这里使用Docker安装</summary><p>
<details><summary>您是否已安装Docker?如果没有,请点击这里</summary><p>
下载并安装Docker 1.21或更高版本,适用于Linux或MacOS。
考虑使用Docker的"便捷脚本"进行安装(在您操作系统的Docker安装网页上搜索)。
根据您的Docker引擎说明启动docker,通常是 docker start
。
注意 : 您必须具有sudo或root权限才能安装Docker。如果您不希望以sudo/root身份运行Docker,则需要按照以下说明配置用户组:https://docs.docker.com/install/linux/linux-postinstall/
下载并安装适用于Windows的Docker Toolbox。
启动Kitematic。
如果在首次启动时Kitematic显示红色错误,建议您使用VirtualBox运行,请照做。
注意: 适用于MacOS的Docker Toolbox尚未经过测试。
提供了一个Dockerfile来构建具有CUDA支持的镜像。从github仓库构建:
docker build -t topaz https://github.com/tbepler/topaz.git
或下载源代码并从源目录构建
git clone https://github.com/tbepler/topaz
cd topaz
docker build -t topaz .
</p></details>
<details><summary>点击这里使用Singularity安装</summary><p> Topaz的预构建Singularity镜像可在此处获取,并可通过以下命令安装:
singularity pull shub://nysbc/topaz
然后,您可以在singularity镜像中运行topaz(需适当更改路径):
singularity exec --nv -B /mounted_path:/mounted_path /path/to/singularity/container/topaz_latest.sif /usr/local/conda/bin/topaz
<details><summary>点击此处从源代码安装</summary><p>
建议:将Topaz安装到Python虚拟环境中 关于如何设置虚拟环境,请参见https://conda.io/docs/user-guide/tasks/manage-environments.html 或 https://virtualenv.pypa.io/en/stable/。
已在Python 3.6和2.7版本上测试
使用conda可轻松安装依赖项
conda install numpy pandas scikit-learn
conda install -c pytorch pytorch torchvision
有关为您的CUDA版本安装pytorch的更多信息,请参见https://pytorch.org/get-started/locally/
git clone https://github.com/tbepler/topaz
进入源代码目录
cd topaz
默认情况下,这将是最新版本的topaz源代码。要安装特定的旧版本,请检出该提交。例如,对于Topaz的v0.1.0版本:
git checkout v0.1.0
请注意,较旧的Topaz版本可能有不同的依赖项。请参阅特定Topaz版本的README。
将Topaz安装到您的Python路径中,包括topaz命令行界面
pip install .
要进行开发安装,请使用
pip install -e .
</p></details>
Topaz也可通过SBGrid获得。
教程以Jupyter笔记本的形式呈现。请按照此处的说明安装Jupyter。
教程数据可以从这里下载。
要在您自己的系统上运行教程步骤,您需要安装Jupyter和用于可视化的matplotlib。
使用Anaconda可以通过以下方式完成:
conda install jupyter matplotlib
如果您使用anaconda安装了Topaz,请确保这些包安装在您的Topaz环境中。
<details><summary>点击此处查看Topaz管道及其命令的描述</summary><p>
命令行界面的结构是一个单一的入口命令(topaz),不同的步骤被定义为子命令。下面提供了一个一般使用指南,简要说明了颗粒拾取管道中最重要的子命令。
要查看所有子命令的列表及其简要描述,请运行topaz --help
建议在模型训练和预测之前对图像进行降采样和归一化。
降采样脚本使用离散傅里叶变换来降低图像的空间分辨率。可以这样使用:
topaz downsample --scale={降采样因子} --output={输出图像路径} {输入图像路径}
用法: topaz downsample [-h] [-s SCALE] [-o OUTPUT] [-v] file
位置参数:
file
可选参数:
-h, --help 显示此帮助消息并退出
-s SCALE, --scale SCALE
降采样因子(默认: 4)
-o OUTPUT, --output OUTPUT
输出文件
-v, --verbose 打印信息
然后可以使用normalize脚本对图像进行归一化。此脚本拟合一个两分量高斯混合模型,并为每个图像添加一个额外的缩放乘数,以捕获碳膜像素并考虑曝光差异。然后通过将每个图像除以其缩放因子,再减去主要高斯混合分量的均值并除以其标准差来调整像素值。可以这样使用:
topaz normalize --destdir={存放归一化图像的目录} [图像文件列表]
用法: topaz normalize [-h] [-s SAMPLE] [--niters NITERS] [--seed SEED]
[-o DESTDIR] [-v]
files [files ...]
位置参数:
files
可选参数:
-h, --help 显示此帮助消息并退出
-s SAMPLE, --sample SAMPLE
模型拟合的像素采样因子(默认: 100)
--niters NITERS 模型拟合运行的迭代次数(默认: 200)
--seed SEED 模型初始化的随机种子(默认: 1)
-o DESTDIR, --destdir DESTDIR
输出目录
-v, --verbose 详细输出
可以使用preprocess脚本在一个步骤中完成降采样和归一化。
topaz preprocess --scale={降采样因子} --destdir={存放处理后图像的目录} [图像文件列表]
用法: topaz preprocess [-h] [-s SCALE] [-t NUM_WORKERS]
[--pixel-sampling PIXEL_SAMPLING] [--niters NITERS]
[--seed SEED] -o DESTDIR [-v]
files [files ...]
位置参数:
files
可选参数:
-h, --help 显示此帮助消息并退出
-s SCALE, --scale SCALE
图像降采样的重缩放因子(默认: 4)
-t NUM_WORKERS, --num-workers NUM_WORKERS
用于并行图像降采样的进程数(默认: 0)
--pixel-sampling PIXEL_SAMPLING
模型拟合的像素采样因子(默认: 100)
--niters NITERS 模型拟合运行的迭代次数(默认: 200)
--seed SEED 模型初始化的随机种子(默认: 1)
-o DESTDIR, --destdir DESTDIR
输出目录
-v, --verbose 详细输出
训练脚本需要一个列出图像文件路径的文件和另一个列出颗粒坐标的文件。坐标从图像左上角开始索引。这些文件应该是制表符分隔的,带有以下标题:
图像文件列表
image_name path
...
颗粒坐标
image_name x_coord y_coord
...
使用topaz train
命令训练模型。有关完整的训练参数列表,请参见
topaz train --help
可以使用训练好的模型通过 topaz segment
命令对图像进行分割。
用法: topaz segment [-h] [-m MODEL] [-o DESTDIR] [-d DEVICE] [-v]
paths [paths ...]
位置参数:
paths 待处理图像文件的路径
可选参数:
-h, --help 显示此帮助信息并退出
-m MODEL, --model MODEL
训练好的分类器路径
-o DESTDIR, --destdir DESTDIR
输出目录
-d DEVICE, --device DEVICE
使用哪个设备,<0 对应 CPU(默认:如果可用则使用 GPU)
-v, --verbose 详细模式
可以直接从保存的分割图像中提取预测的粒子坐标(见上文),或者使用 topaz extract
命令通过训练好的模型在一个步骤中完成图像分割和粒子提取。
用法: topaz extract [-h] [-m MODEL] [-r RADIUS] [-t THRESHOLD]
[--assignment-radius ASSIGNMENT_RADIUS]
[--min-radius MIN_RADIUS] [--max-radius MAX_RADIUS]
[--step-radius STEP_RADIUS] [--num-workers NUM_WORKERS]
[--targets TARGETS] [--only-validate] [-d DEVICE]
[-o OUTPUT]
paths [paths ...]
位置参数:
paths 待处理图像文件的路径
可选参数:
-h, --help 显示此帮助信息并退出
-m MODEL, --model MODEL
训练好的子图像分类器路径,如果没有提供模型,输入图像必须已经分割
-r RADIUS, --radius RADIUS
提取区域的半径
-t THRESHOLD, --threshold THRESHOLD
终止区域提取的分数分位数阈值(默认:0.5)
--assignment-radius ASSIGNMENT_RADIUS
预测和标记目标之间允许匹配的最大距离(默认:与提取半径相同)
--min-radius MIN_RADIUS
调整半径参数时的最小区域提取半径(默认:5)
--max-radius MAX_RADIUS
调整半径参数时的最大区域提取半径(默认:100)
--step-radius STEP_RADIUS
搜索最佳半径参数时的网格大小(默认:5)
--num-workers NUM_WORKERS
用于并行提取的进程数,0 表示使用主进程(默认:0)
--targets TARGETS 指定粒子坐标的文件路径。用于找到使 AUPRC 最大化的提取半径
--only-validate 仅计算验证指标的标志。不报告完整的预测列表
-d DEVICE, --device DEVICE
使用哪个设备,<0 对应 CPU
-o OUTPUT, --output OUTPUT
输出文件路径
该脚本使用非极大值抑制算法贪婪地选择粒子坐标,并从候选列表中移除附近的坐标。这个过程涉及两个额外的参数:
给定一组已知的粒子坐标,可以通过寻找使平均精度分数最大化的半径来自动调整半径参数。在这种情况下,预测的坐标必须分配给目标坐标,这需要一个额外的距离阈值(--assignment-radius)。
使用 Topaz 提取的粒子仍然具有相关的分数,应通过选择高于某个分数阈值的粒子来确定最终的粒子列表。topaz precision_recall_curve
命令可以通过报告预测粒子坐标列表和已知目标坐标列表的精确率-召回率曲线来辅助这一过程。然后可以在一组保留的显微图上选择阈值来优化 F1 分数或特定的召回率/精确率水平。
用法: topaz precision_recall_curve [-h] [--predicted PREDICTED]
[--targets TARGETS] -r ASSIGNMENT_RADIUS
可选参数:
-h, --help 显示此帮助信息并退出
--predicted PREDICTED
包含预测粒子坐标及其分数的文件路径
--targets TARGETS 指定目标粒子坐标的文件路径
-r ASSIGNMENT_RADIUS, --assignment-radius ASSIGNMENT_RADIUS
预测和标记目标之间允许匹配的最大距离
目前,有几种可用于区域分类器的模型架构:
ResNet8 在性能和感受野大小之间提供了良好的平衡。当需要较少复杂的模型时,Conv63 和 Conv31 可能是更好的选择。
基础层的单元数可以通过 --units 标志设置。ResNet8 在图像处理过程中进行步进时总是将单元数翻倍。Conv31、Conv63 和 Conv127 默认不这样做,但可以使用 --unit-scaling 标志来设置步进时单元数的乘法因子。
可以更改 conv* 模型的池化方案。默认不进行任何池化,但可以通过指定 "--pooling=max" 或 "--pooling=avg" 来使用最大池化或平均池化。
要查看架构的详细布局,请使用 --describe 标志。
PN 方法选项将每个未标记为正(y=1)的坐标都视为负(y=0),然后优化标准分类目标: $$ \piE_{y=1}[L(g(x),1)] + (1-\pi)E_{y=0}[L(g(x),0)] $$ 其中 $\pi$ 是权衡正例和负例的参数,$L$ 是错误分类成本函数,$g(x)$ 是模型输出。
GE-binomial 方法选项将未标记为正(y=1)的坐标视为未标记(y=?),然后优化包含通用期望准则的目标,该准则旨在与小批量 SGD 配合良好。
GE-KL 方法选项将未标记为正(y=1)的坐标视为未标记(y=?),然后优化目标: $$ E_{y=1}[L(g(x),1)] + \lambdaKL(\pi, E_{y=?}[g(x)]) $$ 其中 $\lambda$ 是松弛参数(--slack 标志),指定对未标记数据上分类器期望与 $\pi$ 之间的 KL 散度的权重。
PU 方法使用 Kiryo 等人(2017)提出的目标函数。
这设置了每个粒子坐标周围多少像素被视为正例,作为一种数据增强形式。这些坐标遵循一种分布,这种分布是在标记数据时选择哪个像素作为粒子中心的结果。应选择半径足够大,以覆盖可能被选择的像素的合理区域,但不要大到标记粒子外部的像素为正例。
Topaz GUI 中也内置了用户指南。
Topaz 还与 RELION、CryoSPARC、Scipion 和 Appion 集成。您可以在以下位置找到信息和教程:
RELION:https://github.com/tbepler/topaz/tree/master/relion_run_topaz CryoSPARC:https://guide.cryosparc.com/processing-data/all-job-types-in-cryosparc/deep-picking/deep-picking
Scipion:https://github.com/scipion-em/scipion-em-topaz
Bepler, T., Morin, A., Rapp, M., Brasch, J., Shapiro, L., Noble, A.J., Berger, B. 冷冻电子显微镜图像中用于颗粒拾取的正-未标记卷积神经网络。自然方法 16, 1153–1160 (2019)。https://doi.org/10.1038/s41592-019-0575-8
<details><summary>Bibtex</summary><p>@Article{Bepler2019,
author={Bepler, Tristan
and Morin, Andrew
and Rapp, Micah
and Brasch, Julia
and Shapiro, Lawrence
and Noble, Alex J.
and Berger, Bonnie},
title={Positive-unlabeled convolutional neural networks for particle picking in cryo-electron micrographs},
journal={Nature Methods},
year={2019},
issn={1548-7105},
doi={10.1038/s41592-019-0575-8},
url={https://doi.org/10.1038/s41592-019-0575-8}
}
</p></details>
Bepler, T., Kelley, K., Noble, A.J., Berger, B. Topaz-Denoise:用于冷冻电镜和冷冻电子断层扫描的通用深度去噪模型。自然通讯 11, 5208 (2020)。https://doi.org/10.1038/s41467-020-18952-1
<details><summary>Bibtex</summary><p>@Article{Bepler2020_topazdenoise,
author={Bepler, Tristan
and Kelley, Kotaro
and Noble, Alex J.
and Berger, Bonnie},
title={Topaz-Denoise: general deep denoising models for cryoEM and cryoET},
journal={Nature Communications},
year={2020},
issn={2041-1723},
doi={10.1038/s41467-020-18952-1},
url={https://doi.org/10.1038/s41467-020-18952-1}
}
</p></details>
如需申请学术或非学术用途的 Topaz 研讨会,请发送请求至:
<alexjnoble [at] gmail [dot] com> 和 <tbepler [at] gmail [dot] com>
Topaz 是根据 GNU 通用公共许可证第3版 发布的开源软件。
请将错误报告、具体功能请求和改进建议作为 Github 问题 提交。
对于一般帮助、问题、建议、提示以及安装/设置方面的协助,请查看我们新的 讨论 板块。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目 录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号