• 正文
  • 相关推荐
申请入驻 产业图谱

零样本目标检测:检测从未见过的物体

01/05 11:33
330
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

想象一下,如果你给一个计算机视觉模型展示一张海鸥的图片,而这个模型之前只接受过汽车和自行车的训练,传统的物体检测模型会完全失效。但如果模型只需要你告诉它“找到海鸥”就能检测到海鸥呢?这就是零样本物体检测的神奇之处。

什么是零样本目标检测?

零样本目标检测解决了计算机视觉中最大的限制之一:每次想要检测新对象时都需要重新训练模型。

大多数目标检测模型都是基于固定的类别集进行训练的。例如,如果你用 COCO 数据集(包含 80 个类别,例如人、汽车、狗等)训练一个模型,它就只能检测这些特定的目标。想要检测像“带把手的咖啡杯”这样的新目标呢?传统的做法是:

收集数百张带有咖啡杯的图片

给每个图形都贴上边界框标签。

重新训练整个模型

对每个新的对象类重复此过程。

这种方法耗时费力,成本高昂,而且无法很好地扩展到实际应用中,因为在实际应用中,你可能需要检测成千上万个不同的对象。

零样本目标检测彻底改变了一切。它允许模型仅凭文本描述就能检测出训练过程中从未见过的目标。无需重新训练,也无需新的标注数据。

零样本检测是如何工作的?

这项突破源于两个强大理念的结合:

1. 视觉语言理解

零样本检测器在训练过程中学习图像和文本之间的关系。它们不是学习“猫长什么样”,而是学习“‘猫’这个词在视觉上意味着什么”。

这是通过以下方式实现的:

文本编码器:处理文本描述并将其转换为数值表示

图像编码器:从图像中提取视觉特征

跨模态融合:将语言和视觉信息连接起来

2. 开放集检测

传统检测器采用封闭集方法,仅根据固定的类别列表进行预测。零样本检测器则采用开放集方法,可以检测文本中描述的任何对象。

最先进的模型

Grounding DINO:现任冠军

Grounding DINO 在没有任何 COCO 训练数据的情况下,在 COCO 检测基准测试中达到了 52.5 的平均精度 (AP),并在多个零样本基准测试中创造了新的记录。

该模型结合了:

DINO架构:一种基于变压器的检测器,无需像非极大值抑制(NMS)这样的手工模块。

基于地面模型的预训练:利用海量图像-文本对进行训练,以理解语言-视觉关系。

主要特点:

根据文本提示(例如“戴着太阳镜的狗”)检测物体

能够理解指称表达(例如,“某人坐着的椅子”)

实时处理图像,适用于多种应用

YOLO-World:速度遇上零失误检测

YOLO-World为 YOLO 系列产品带来了零样本检测功能,实现了实时零样本目标检测。当您需要兼顾速度和灵活性时,它尤其有用。

Grounding DINO 1.6 Pro:最新进化版

Grounding DINO 1.6 Pro在零样本迁移测试中取得了新的突破性成果,在 COCO 数据集上获得 55.4 AP 的成绩,在 LVIS-minival 数据集上获得 57.7 AP 的成绩。最新版本继续突破开放世界目标检测的极限。

当前局限性和挑战

虽然零样本检测功能强大,但它并不完美:

准确性权衡:零样本模型目前在纯粹的性能指标上落后于传统的监督模型(如 Mask-RCNN),尽管差距正在缩小。

小目标检测:模型可能难以检测非常小的物体或杂乱场景中的物体。

提示信息设计:文本提示信息的质量会显著影响检测性能。“查找猫”比“定位猫科动物”效果更好。

模糊的描述:像“寻找动物”这样的通用提示比像“寻找金毛寻回犬”这样的具体提示更难。

目标检测的未来

近期研究的重点是将零样本检测与少样本学习方法相结合,使模型仅需少量视觉样本和文本描述即可适应新的领域。该领域正迅速发展,具体表现在:

基础模型:规模更大、功能更强大的模型,基于数十亿个图像-文本对进行训练。

多模态融合:更好地整合视觉和语言理解

高效架构:可在移动设备和边缘硬件上运行的更快模型

少样本自适应:结合零样本自适应和少量视觉示例,以获得更佳的性能

相关推荐