stable-diffusion-webui-ux

stable-diffusion-webui-ux

高度可定制的Stable Diffusion Web界面

stable-diffusion-webui-ux是一个基于Gradio库的Stable Diffusion Web界面。它实现了DOM样式优化、事件委托、微模板引擎等功能,提高了界面性能。此外,项目集成了工作区定制、无限图像浏览等特性,并支持提示矩阵、注意力机制、文本反转等高级功能,为AI图像生成提供了全面的工具集。

Stable Diffusion用户界面AI绘图图像生成定制化Github开源项目

Stable Diffusion 网页用户界面

一个定制的、高度适应性的 Stable Diffusion 用户界面,利用强大的 Gradio 库。这个尖端的浏览器界面为用户提供了无与伦比的定制和优化水平,使其与其他网页界面截然不同。

优化

  • 在 DOM 中替换所有默认的 Gradio 样式表,使用优化版本以促进组件间更好的视觉一致性。
  • 从 DOM 中消除内联样式和 Svelte 类,以减少混乱并提高效率。
  • 从 DOM 中移除不必要的"img2img 额外网络",以减少重复的图像和事件监听器。
  • 消除"txt2img 额外网络"卡片和操作按钮的内联事件监听器。
  • 应用事件委托模式,通过整合"txt2img 额外网络"卡片和操作按钮的事件处理,进一步简化代码。

webui-ux 功能

  • 可由其他扩展利用的多功能微模板引擎
  • 通过用户友好的配置界面自定义主题样式
  • 内置控制台日志
  • 忽略覆盖的选项
  • 支持输入范围滑块上的刻度标记,提高可用性
  • 能够在滑块和数字输入模式之间切换,允许用户手动输入值而不显示滑块

工作区 UI-UX(开发中)

工作区扩展使您能够创建自定义视图并根据您的独特偏好组织它们。通过直观的拖放界面,您可以设计完全适合您特定需求的工作流程,让您对工作环境拥有最终控制权。

工作区

成为支持者并获得 UI-UX 工作区的早期访问权。

无限图像浏览集成

无限图像浏览扩展无缝集成。

无限图像浏览器集成

待办事项

  • 改进移动设备支持
  • 全屏画廊支持

功能

详细功能展示(含图片)

  • 原始 txt2img 和 img2img 模式
  • 一键安装和运行脚本(但您仍需安装 Python 和 Git)
  • 外部绘制
  • 内部绘制
  • 彩色草图
  • 提示矩阵
  • Stable Diffusion 放大
  • 注意力,指定模型应更加关注的文本部分
    • 穿着((燕尾服))的男人 - 将更加关注燕尾服
    • 穿着(燕尾服:1.21)的男人 - 替代语法
    • 选择文本并按 Ctrl+UpCtrl+Down(MacOS 上为 Command+UpCommand+Down)自动调整所选文本的注意力(由匿名用户贡献的代码)
  • 循环回调,多次运行 img2img 处理
  • X/Y/Z 图,一种用不同参数绘制三维图像的方法
  • 文本反转
    • 可以拥有任意数量的嵌入并为它们使用任何您喜欢的名称
    • 使用每个标记具有不同向量数的多个嵌入
    • 适用于半精度浮点数
    • 在 8GB 上训练嵌入(也有 6GB 可用的报告)
  • 额外选项卡,包括:
    • GFPGAN,修复面部的神经网络
    • CodeFormer,作为 GFPGAN 替代方案的面部修复工具
    • RealESRGAN,神经网络放大器
    • ESRGAN,具有大量第三方模型的神经网络放大器
    • SwinIR 和 Swin2SR(见此处),神经网络放大器
    • LDSR,潜在扩散超分辨率放大
  • 调整宽高比选项
  • 采样方法选择
    • 调整采样器 eta 值(噪声乘数)
    • 更高级的噪声设置选项
  • 随时中断处理
  • 4GB 显卡支持(也有 2GB 可用的报告)
  • 批量处理的正确种子
  • 实时提示标记长度验证
  • 生成参数
    • 用于生成图像的参数与图像一起保存
    • 对于 PNG,保存在 PNG 块中;对于 JPEG,保存在 EXIF 中
    • 可以将图像拖到 PNG 信息选项卡以恢复生成参数并自动将它们复制到界面中
    • 可以在设置中禁用
    • 将图像/文本参数拖放到提示框
  • 读取生成参数按钮,将提示框中的参数加载到界面
  • 设置页面
  • 从界面运行任意 Python 代码(必须使用 --allow-code 运行以启用)
  • 大多数界面元素的鼠标悬停提示
  • 可以通过文本配置更改界面元素的默认值/混合值/最大值/步长值
  • 平铺支持,一个复选框用于创建可以像纹理一样平铺的图像
  • 进度条和实时图像生成预览
    • 可以使用单独的神经网络生成预览,几乎不需要 VRAM 或计算资源
  • 负面提示,一个额外的文本字段,允许您列出您不想在生成的图像中看到的内容
  • 样式,一种保存部分提示并稍后通过下拉菜单轻松应用它们的方法
  • 变体,一种生成相同图像但有细微差异的方法
  • 种子调整大小,一种生成相同图像但分辨率略有不同的方法
  • CLIP 询问器,一个尝试从图像猜测提示的按钮
  • 提示编辑,一种在生成过程中更改提示的方法,例如开始制作西瓜然后中途切换到动漫女孩
  • 批量处理,使用 img2img 处理一组文件
  • Img2img 替代方法,交叉注意力控制的反向欧拉方法
  • 高分辨率修复,一个方便的选项,可以一键生成高分辨率图片,而不会出现常见的失真
  • 即时重新加载检查点
  • 检查点合并器,一个允许您将最多 3 个检查点合并为一个的选项卡
  • 自定义脚本,包含来自社区的许多扩展
  • 可组合扩散,一种同时使用多个提示的方法
    • 使用大写 AND 分隔提示
    • 还支持提示权重:猫 :1.2 AND 狗 AND 企鹅 :2.2
  • 提示无标记限制(原始 stable diffusion 最多允许使用 75 个标记)
  • DeepDanbooru 集成,为动漫提示创建 danbooru 风格的标签
  • xformers,特定显卡的主要速度提升:(在命令行参数中添加 --xformers
  • 通过扩展:历史选项卡:在界面内方便地查看、引导和删除图像
  • 永久生成选项
  • 训练选项卡
    • 超网络和嵌入选项
    • 预处理图像:裁剪、镜像、使用 BLIP 或 deepdanbooru(用于动漫)自动标记
  • Clip 跳过
  • 超网络
  • Loras(与超网络相同但更漂亮)
  • 一个单独的界面,您可以在其中选择要添加到提示中的嵌入、超网络或 Loras,并带有预览
  • 可以从设置屏幕选择加载不同的 VAE
  • 进度条中的估计完成时间
  • API
  • 支持 RunwayML 的专用修复模型
  • 通过扩展:美学渐变,一种使用 clip 图像嵌入生成具有特定美学的图像的方法(https://github.com/vicgalle/stable-diffusion-aesthetic-gradients 的实现)
  • Stable Diffusion 2.0 支持 - 请参阅 wiki 获取说明
  • Alt-Diffusion 支持 - 请参阅 wiki 获取说明
  • 现在没有任何不好的字母!
  • 以 safetensors 格式加载检查点
  • 放宽分辨率限制:生成图像的尺寸必须是 8 的倍数,而不是 64
  • 现在有许可证了!
  • 从设置屏幕重新排序界面元素

安装和运行

确保满足所需的依赖项,并按照以下说明操作:

或者,使用在线服务(如 Google Colab):

Windows 自动安装

  1. 安装 Python 3.10.6(更新版本的 Python 不支持 torch),勾选"添加 Python 到 PATH"。
  2. 安装 git
  3. 下载 stable-diffusion-webui 仓库,例如运行 git clone https://github.com/anapnoe/stable-diffusion-webui-ux.git
  4. 以普通非管理员用户身份从 Windows 资源管理器运行 webui-user.bat

Linux 自动安装

  1. 安装依赖:
# 基于 Debian: sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0 # 基于 Red Hat: sudo dnf install wget git python3 # 基于 Arch: sudo pacman -S wget git python3
  1. 导航到您想安装 webui 的目录并执行以下命令:
wget -q https://raw.githubusercontent.com/anapnoe/stable-diffusion-webui-ux/master/webui.sh
  1. 运行 webui.sh
  2. 查看 webui-user.sh 获取选项。

Apple Silicon 安装

请在此处查找说明。

贡献

以下是向此仓库添加代码的方法:贡献

文档

文档已从此 README 移至项目的 wiki

为了让 Google 和其他搜索引擎爬取 wiki,这里提供了一个(非人类阅读用)可爬取的 wiki 链接。

致谢

借用代码的许可证可以在 设置 -> 许可证 界面以及 html/licenses.html 文件中找到。

编辑推荐精选

Qwen2.5-VL

Qwen2.5-VL

一款强大的视觉语言模型,支持图像和视频输入

Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。

HunyuanVideo

HunyuanVideo

HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。

HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。

WebUI for Browser Use

WebUI for Browser Use

一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。

WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。

xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。

xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。

olmocr

olmocr

一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。

olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。

飞书多维表格

飞书多维表格

飞书多维表格 ×DeepSeek R1 满血版

飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。

CSM

CSM

高质量语音生成模型

CSM 是一个开源的语音生成项目,它提供了一个基于 Llama-3.2-1B 和 CSM-1B 的语音生成模型。该项目支持多语言,可生成多种声音,适用于研究和教育场景。通过使用 CSM,用户可以方便地进行语音合成,同时项目还提供了水印功能,确保生成音频的可追溯性和透明度。

agents-course

agents-course

Hugging Face 的 AI 智能体课程,涵盖多种智能体框架及相关知识

本项目是 Hugging Face 推出的 AI 智能体课程,深入介绍了 AI 智能体的相关概念,如大语言模型、工具使用等。课程包含多个单元,详细讲解了不同的智能体框架,如 smolagents 和 LlamaIndex,提供了丰富的学习资源和实践案例。适合对 AI 智能体感兴趣的开发者和学习者,有助于提升他们在该领域的知识和技能。

RagaAI-Catalyst

RagaAI-Catalyst

用于 AI 项目管理和 API 交互的工具集,助力 AI 项目高效开发与管理。

RagaAI-Catalyst 是一款专注于 AI 领域的强大工具集,为开发者提供了便捷的项目管理、API 交互、令牌管理等功能。支持多 API 密钥上传,能快速创建、列出和管理 AI 项目,还可获取项目用例和指标信息。适用于各类 AI 开发场景,提升开发效率,推动 AI 项目顺利开展。

smolagents

smolagents

一个包含多种工具和文档处理功能,适用于 LLM 使用的项目。

smolagents 是一个功能丰富的项目,提供了如文件格式转换、网页内容读取、语义搜索等多种工具,支持将常见文件类型或网页转换为 Markdown,方便进行文档处理和信息提取,能满足不同场景下的需求,提升工作效率和数据处理能力。

下拉加载更多