优质AI图像处理工具合集:软件、应用及项目推荐

Depth-Anything-V2-Base

Depth-Anything-V2-Base

图像处理计算机视觉

更快更精细的单目深度估计模型

depth_anything_vitl14

depth_anything_vitl14

图像处理计算机视觉

先进的计算机视觉深度估计开源框架

segformer-b5-finetuned-cityscapes-1024-1024

segformer-b5-finetuned-cityscapes-1024-1024

图像处理模型

SegFormer-b5模型在CityScapes数据集上微调的语义分割应用

AnimateLCM

AnimateLCM

AnimateLCM图像处理

基于机器学习的轻量级视频生成框架

Chat-UniVi

Chat-UniVi

图像处理开源项目

基于动态视觉令牌的图像视频双模态理解模型

zoedepth-nyu-kitti

zoedepth-nyu-kitti

ZoeDepth图像处理

基于DPT框架的深度估计神经网络

ldm-super-resolution-4x-openimages

ldm-super-resolution-4x-openimages

图像超分辨率Github

基于潜在扩散模型的图像超分辨率开源工具

llava-onevision-qwen2-72b-ov-chat

llava-onevision-qwen2-72b-ov-chat

模型人工智能

多模态大语言模型支持图像、多图和视频交互

mit-b0

mit-b0

模型语义分割

轻量级视觉Transformer用于语义分割

Depth-Anything-V2-Large

Depth-Anything-V2-Large

模型计算机视觉

单目深度估计新突破:高精度细节与高效性能的完美平衡

dpt-beit-base-384

dpt-beit-base-384

图像处理神经网络

基于BEiT主干的DPT模型实现单目深度估计

deformable-detr-DocLayNet

deformable-detr-DocLayNet

图像处理对象检测

Deformable DETR模型实现文档布局分析 基于DocLayNet数据集

llava-onevision-qwen2-0.5b-ov

llava-onevision-qwen2-0.5b-ov

多模态图像处理

支持多模态输入的视觉语言AI模型

paligemma-3b-pt-224

paligemma-3b-pt-224

模型Github

基于SigLIP和Gemma的多功能视觉语言模型

segformer-b5-finetuned-ade-640-640

segformer-b5-finetuned-ade-640-640

语义分割Transformer

SegFormer-b5模型用于ADE20k数据集的语义分割

paligemma-3b-mix-448

paligemma-3b-mix-448

视觉语言模型图像处理

基于SigLIP和Gemma的多语言视觉语言模型

Florence-2-large-no-flash-attn

Florence-2-large-no-flash-attn

模型多任务学习

基于统一表示的多功能视觉人工智能模型

surya_rec

surya_rec

模型surya

surya项目专用的多语言文本识别模型

llava-onevision-qwen2-7b-ov-chat

llava-onevision-qwen2-7b-ov-chat

多模态图像处理

LLaVA-OneVision多模态AI模型支持图像和视频交互

UNI

UNI

图像处理Huggingface

病理学AI基础模型助力精准医疗诊断