为什么每次更换产品，你的机器视觉系统都会“罢工”？（以及如何修复）

作者： Kitchin

每次换班都“断裂”的成本

生产线上的产品切换本应只需几分钟：更换工具、加载新配方、运行验证部件，然后开始生产。对于机械系统（输送机、机器人、给料机）而言，这一过程已被充分理解并高度优化。

但视觉系统往往是瓶颈。

根据西门子 2024 年关于制造停机的报告，非计划停机每年会让制造商损失数十亿美元。业内估计，在复杂案例中，为新产品变体重新编程视觉系统需要 4 到 6 周，而不是 4 到 6 个小时。

这是因为检测逻辑被硬编码到了特定的视觉特征中（如零件的精确轮廓、表面的预期反射率、标签的精确像素坐标）。一旦输入改变，逻辑就会产生误判（假拒绝）或漏检。

经济影响

汽车制造： 非计划停机每小时损失高达 230 万美元。

食品和消费品： 每小时损失 3.6 万美元。

高混合低量产 (HMLV)：

对于每周运行 50+ 个 SKU 的制造商，如果换型时间与生产时间相当，自动检验将变成净成本，而非生产力提升。

案例： 一家电子制造商记录到，切换到视觉引导校准后，换装停机时间从 4 小时缩短到 12 分钟，效率提升了 20 倍。

️ 传统机器视觉到底做了什么？（以及为什么会出问题）

在考察 Cognex（康耐视）和 Keyence（基恩士）的 AI 产品之前，我们需要了解大多数已部署的机器视觉仍运行在什么基础上。虽然营销上可能宣称“AI 驱动”，但底层技术往往还是传统的。

1. 模板匹配

这是最广泛应用的技术。系统存储“黄金模板”，通过逐像素比较生成相似度评分。

原理： 将模板滑过图像，计算相似度。分数高于阈值（如 0.85）表示“找到”。

局限性： 模板针对一种产品变体。如果新 SKU 的标签布局、瓶盖颜色或零件几何形状不同，就需要新模板。对于每月新增 5-10 个 SKU 的制造商，这是对吞吐量的永久税收。

2. 基于阈值的检测与Blob分析

通过亮度截止值将图像转换为黑白二值图，识别前景像素的连通区域。

原理： 测量斑点的面积、质心、长宽比等。

局限性： 假设亮度、对比度和表面反射率保持一致。如果切换到深色零件或表面纹理变化（哑光变光面），阈值将失效。

3. 边缘检测与几何测量

寻找像素强度急剧变化的边界，用于精确测量（如孔径、角度）。

原理： 计算图像梯度，亚像素级精度。

局限性： 假设感兴趣特征产生最强梯度。如果新产品表面纹理不同（如加工痕迹），边缘检测器可能会锁定错误特征。

共同线索： 良好的照明设计可以缓解这些问题，但不能消除它。当产品本身发生变化时，无论灯光多么完美，都无法让模板匹配到它从未编程过的部件。

Cognex 和 Keyence AI 的实际功能

两家公司都在为其产品线添加 AI 能力，但我们需要了解其“天花板”在哪里。

Cognex：Edge Learning + VisionPro 深度学习

Cognex 提供两层 AI 服务：

Edge Learning (边缘学习)： 运行在智能相机上。用户展示 5-10 张图片微调，无需 GPU。适合简单任务（分类、存在检测）。

VisionPro 深度学习 (VPDL)： 基于 PC 的平台。提供定位、分析（缺陷分割）、分类和读取工具。需要数百张标记图像和 NVIDIA 显卡。

VPDL 做不到的事：无法导入自定义模型（如 ONNX, PyTorch）。无法导出模型到 Cognex 生态外。没有自动化的主动学习。架构专有且固定。

Keyence：黑匣子中的边缘学习

主要集中在 IV4、VS 和 CV-X 系列。

特点： 设计成对用户“隐形”。例如 IV 系列只需两张图即可分类；CV-X 系列通过 30-50 个好零件学习“正常”的样子（单类异常检测）。

局限性： 完全是黑箱。无自定义模型导入/导出，无超参数调优。深色部件因对比度问题存在限制。

两家公司都达到的“天花板”

虽然比纯模板匹配有提升，但在以下情况会失效：

缺陷变异性高： 5-20 张训练图不足以覆盖所有划痕或污渍。

产品组合超出训练集： 遇到未训练过的 SKU #11 时会困难。

生产条件漂移： 灯光老化、镜头变脏，模型无法自动适应。

出现新缺陷： 系统没有机制标记“我不确定”，只能默默漏检。

主动学习鸿沟

主动学习 是一种训练策略，模型会识别哪些未标记样本对提升表现最有帮助，并让人类只对这些样本进行标记。

现状： Cognex 和 Keyence 都没有实现自动化主动学习循环。

区别：传统/现有 AI： 被动。你发现问题（误判率上升） -> 收集数据 -> 手动重新训练。系统在你不看的时候一直在退化。

主动学习： 主动。系统告诉你它遇到了训练分布之外的案例，在这些案例变成废品之前请求人工审核。

关键发现： 传统系统会悄无声息地退化，直到有人注意到。主动学习通过生产数据形成持续改进循环。

深度学习如何解决换型问题

现代深度学习平台（如 Datature）在设计上旨在解决根本问题。

1. 迁移学习：新 SKU，最小数据

原理： 利用已在相关产品上训练好的模型，对新变体中的少量图像（50-200 张）进行微调。

优势： 不需要从零开始。微调只需几分钟到几小时，而不是几周。

2. 数据增强：从少中取胜

原理： 从现有图像生成合成变化（旋转、翻转、亮度变化、噪声注入）。

优势： 100 张真实图像可变成数千个训练样本。这是模型泛化与死记硬背的区别。

3. 持续改进

原理： 部署流程会捕捉生产阶段的图像，标记不确定的预测，反馈到再训练周期。

优势： 第 365 天的模型比第 1 天更聪明。

4. 开放架构与混合架构

开放性： 模型可导出为标准格式（ONNX），不被硬件锁定。

混合架构（AI + OpenCV）：AI 负责： 在复杂背景下定位零件（解决换型问题）。

传统视觉负责： 在 AI 划定的区域内进行精确测量（如卡尺测量）。

例子： AI 找到 PCB 连接器，OpenCV 测量引脚间距。

️ 构建自适应检测系统：实用路径

从僵硬的视觉系统转向自适应系统，不需要拆除摄像头，过渡可以是渐进的。

审计失效模式： 列出当前系统哪些换型最耗时？哪些 SKU 误判率最高？

从最难的问题开始： 选择外观缺陷检测（划痕、凹痕）作为切入点，因为这是规则最难表达的。

收集并标记数据： 使用现有相机拍摄。利用 AI 辅助标注工具（如 SAM）可节省 50%-80% 时间。

培训、验证、部署、监控： 采用“影子模式”部署（两个系统并行，但只有传统系统做决策），验证准确性。

闭环： 建立流程，将低置信度预测标记供人工审核，并定期重新训练。

成本与投资回报率 (ROI)

平台成本层级：

传统方案（如 Cognex VPDL）：按站点授权 + 昂贵硬件（加密狗、GPU）。现代深度学习平台：通常更灵活，支持边缘部署。

投资回报率驱动因素：

换装停机时间减少： 从数小时缩短到数分钟。

假拒绝率降低： 减少好产品被浪费。

缺陷逃逸率降低： 减少保修费用和客户投诉。

减少人工： 尤其是难以填补的夜班检查员。

典型试点时间线： 从审计到影子部署验证结果，通常需要 6–12 周。

向 AI 检测供应商提出的建议

在评估供应商时，请带着这份清单参加演示：

“我的质量团队能不写代码给数据贴标签吗？”红旗：

“新产品需要多少张图片？训练多久？”

好答案： 50-200 张，数小时。

“出现未见过的缺陷怎么办？”

关注： 异常检测、主动学习、简易再训练。

“我能导出模型并在不同硬件上运行吗？”

红旗： 拒绝导出，意味着被锁定。

“系统能和我现有的相机兼容吗？”

标准： 应支持 Basler, FLIR, Keyence 等标准工业相机。

“换班具体是什么样子的？”

“第二年是什么样的？”

常见问题解答 (FAQ)

Q: 我需要多少张图像来训练模型？
A: 取决于缺陷变异性。单一缺陷通常 200-500 张；多类别缺陷每类 500-2000 张。迁移学习可减少此数量。

Q: 我可以用现有的 Basler/FLIR/Keyence 相机吗？
A: 是的。任何输出标准图像格式或支持 GigE Vision 的相机都可以。

Q: 深度学习足够准确吗？
A: 在数据充足的情况下，通常能达到 95-99%+ 的准确率。关键在于持续改进循环。

Q: 如何处理从未见过的缺陷？
A: 通过异常检测（仅训练“好”零件）捕捉未知缺陷，并通过主动学习将其纳入下一个训练周期。