工具介绍
Stable Diffusion 是由 Stability AI 主导开发、学术界联合发布的开源文本生成图像模型。它基于潜在扩散模型(LDM)架构,能够根据文字描述生成高质量图像,也支持图生图、局部重绘、ControlNet 精准控制等高级功能。与 Midjourney、DALL·E 等闭源服务不同,Stable Diffusion 可完全本地运行,无需订阅费用,用户可自由微调模型、加载社区 LoRA 和 Checkpoint,是目前自由度最高、生态最完整的 AI 绘图工具,广泛服务于设计师、插画师、游戏开发者和 AI 研究者群体。
产品截图
核心功能
优缺点分析
👍 优点
- ✓完全免费且开源:模型权重公开,本地部署后无任何使用费用。相比 Midjourney 每月 $10-$120 的订阅,长期使用成本几乎为零,对高频出图的商业用户节省显著。
- ✓生态极度丰富:Civitai 社区已有超过 10 万个模型、LoRA 和 Embedding 资源,AUTOMATIC1111 和 ComfyUI 两大前端拥有数百个插件,几乎任何垂直需求都能找到现成解决方案。
- ✓数据隐私有保障:本地运行意味着图像内容不经过任何第三方服务器,对于涉及商业机密的概念设计、品牌视觉稿,隐私安全性远优于云端 API 服务。
- ✓可定制性无上限:支持用自有数据集训练专属 LoRA 或 DreamBooth 模型,可将特定人物、产品、IP 形象固化为可复用的风格模型,实现真正意义上的品牌视觉一致性。
👎 缺点
- ✗上手门槛较高:首次配置涉及 Python 环境、CUDA 驱动、模型下载等步骤,对非技术背景用户不友好,初次安装耗时可能超过2小时。
- ✗硬件要求明确:流畅运行需要至少 6GB 显存的 NVIDIA 显卡,低配设备出图速度极慢,Mac 用户体验也明显弱于 Windows+NVIDIA 组合。
- ✗提示词学习成本不低:与 Midjourney 的自然语言交互不同,SD 的提示词有特定语法逻辑,需要一定时间积累才能稳定出图,新手容易因提示词不当导致结果偏差大。
如何使用
- 1安装 Python 环境与 Git — 前往 python.org 下载 Python 3.10.x 版本(注意不要用 3.11 以上,部分依赖库存在兼容问题),安装时勾选'Add Python to PATH'选项。同时安装 Git(git-scm.com)。安装完成后打开命令提示符,输入 python --version 和 git --version 确认两者均正确安装。NVIDIA 显卡用户还需确认已安装匹配版本的 CUDA 驱动,可在 NVIDIA 控制面板中查看当前驱动版本。
- 2克隆并启动 AUTOMATIC1111 WebUI — 在命令行中进入你想存放项目的目录,执行 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git,等待克隆完成。进入文件夹后,Windows 用户直接双击运行 webui-user.bat,脚本会自动创建虚拟环境并安装所有依赖包,首次运行需下载约 2-4GB 数据,耐心等待。安装完成后浏览器会自动打开 http://127.0.0.1:7860,看到界面即表示安装成功。
- 3下载并加载基础模型 — 前往 Civitai(civitai.com)或 Hugging Face 下载 Checkpoint 模型文件(.safetensors 格式,通常 2-7GB)。推荐新手从 Realistic Vision 或 DreamShaper 入手,前者擅长写实风格,后者综合表现均衡。将下载的模型文件放入 stable-diffusion-webui/models/Stable-diffusion/ 目录,回到 WebUI 界面点击左上角刷新按钮,在模型下拉菜单中选择刚才放入的模型即可激活。
- 4编写提示词并生成第一张图 — 在正向提示词框输入描述内容,建议格式为:画面主体 + 风格描述 + 质量词,例如 'a young woman in a cafe, soft natural lighting, photorealistic, 8k, detailed'。负向提示词框填入 'ugly, blurry, bad anatomy, watermark, low quality' 等通用排除词。参数设置建议:采样步数 20-30 步,CFG Scale 7,分辨率 512x512 或 768x768,点击 Generate 等待出图。首次出图建议多生成几张对比效果。
- 5使用 ControlNet 提升出图精准度 — 在 WebUI 的 Extensions 标签页搜索并安装 ControlNet 扩展,重启后在 txt2img 页面下方会出现 ControlNet 折叠面板。展开后上传参考图(如人物姿态图或线稿),在预处理器下拉菜单选择对应类型(openpose 用于姿态控制,canny 用于线稿控制),Control Weight 建议设为 0.8-1.0。配合提示词生成,AI 将严格遵循参考图的构图或姿态,大幅提升出图可控性。进阶技巧:多个 ControlNet 单元可叠加使用,同时控制姿态和深度。
常见问题
Q: 没有高端显卡能用 Stable Diffusion 吗?
A: 可以用,但体验差异明显。6GB 以上 NVIDIA 显卡是流畅运行的基准线,4GB 显卡可通过开启低显存模式(--medvram 或 --lowvram 参数)运行,但出图速度会慢2-4倍。Mac 用户可使用 MPS 后端,M1/M2 芯片表现尚可。没有独立显卡也能用 CPU 模式,但单张图生成时间可能长达数分钟,仅适合偶尔测试,不适合日常使用。云端方案如 Google Colab 可作为低配设备的替代选择。
Q: Stable Diffusion 和 Midjourney 到底选哪个?
A: 两者定位不同,不是非此即彼的关系。Midjourney 开箱即用、审美在线,适合快速出图且不想折腾配置的用户,但月费持续产生、内容有审核限制、定制空间有限。Stable Diffusion 学习成本高,但一旦上手,可控性、定制性和长期成本优势碾压 Midjourney。建议:如果你是设计从业者、有特定风格需求或高频出图,SD 的投入回报率更高;如果只是偶尔用用,Midjourney 更省心。
Q: 生成的图像有版权问题吗,能商用吗?
A: Stable Diffusion 模型本身采用 CreativeML Open RAIL-M 许可证,允许商业使用,但禁止用于生成违法内容。实际商用时需注意两点:一是所用的社区模型(Checkpoint/LoRA)可能有各自的授权条款,使用前需确认;二是部分国家和地区对 AI 生成内容的版权归属尚无明确法律,建议在商业项目中叠加人工创作元素以降低法律风险。总体而言,合规使用下商用是被允许的。
Q: AUTOMATIC1111 和 ComfyUI 哪个更适合新手?
A: AUTOMATIC1111(WebUI)更适合新手入门。它提供传统的表单式界面,参数一目了然,社区教程极其丰富,遇到问题基本都能搜到解决方案。ComfyUI 采用节点式工作流设计,灵活性更强,适合想深度定制生成流程的进阶用户,但学习曲线陡峭。建议新手从 AUTOMATIC1111 开始,熟悉 SD 的核心参数逻辑后,再按需迁移到 ComfyUI 探索更复杂的工作流。