
更快更精细的单目深度估计模型

先进的计算机视觉深度估计开源框架

SegFormer-b5模型在CityScapes数据集上微调的语义分割应用

基于机器学习的轻量级视频生成框架

基于动态视觉令牌的图像视频双模态理解模型

基于DPT框架的深度估计神经网络

基于潜在扩散模型的图像超分辨率开源工具

多模态大语言模型支持图像、多图和视频交互

轻量级视觉Transformer用于语义分割

单目深度估计新突破:高精度细节与高效性能的完美平衡

基于BEiT主干的DPT模型实现单目深度估计

Deformable DETR模型实现文档布局分析 基于DocLayNet数据集

支持多模态输入的视觉语言AI模型

基于SigLIP和Gemma的多功能视觉语言模型

SegFormer-b5模型用于ADE20k数据集的语义分割

基于SigLIP和Gemma的多语言视觉语言模型

基于统一表示的多功能视觉人工智能模型

surya项目专用的多语言文本识别模型

LLaVA-OneVision多模态AI模型支持图像和视频交互

病理学AI基础模型助力精准医疗诊断
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号