更新时间:2023-05-18 11:31
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。
行人重识别的研究起始于二十世纪九十年代中期。研究者们借鉴、引入了一些图像处理、模式识别领域的成熟方法,侧重研究了行人的可用特征、简单分类算法。自2014 年以来,行人重识别技术的训练库趋于大规模化,广泛采用深度学习框架。随着高校、研究所以及一些厂商的研究持续深入,行人重识别技术得到了飞速的发展。
海外主要的行人重识别系统的研究机构有悉尼科技大学(UTS)、伦敦玛丽女王大学(QMUL)等;中国大陆及港澳台的主要有清华大学、北京大学、复旦大学、香港中文大学、西安交通大学、中国科学技术大学、中山大学,中科院自动化所等。
2020年,依图科技在ReID领域取得新突破,刷新业界三大数据集当前最优成绩(SOTA),算法性能达到业界迄今最高标准,极大拓展了算法和应用的边界,加速行人重识别(ReID)大规模商业化落地。
1. 能不能用人脸识别做重识别?
理论上是可以的。但是有两个原因导致人脸识别较难应用:首先,广泛存在后脑勺和侧脸的情况,做正脸的人脸识别难。其次,摄像头拍摄的像素可能不高,尤其是远景摄像头里面人脸截出来很可能都没有32x32的像素。所以人脸识别在实际的重识别应用中很可能有限。
2.有些人靠衣服的颜色就可以判断出来了,还需要行人重识别么?
衣服颜色确实是行人重识别做出判断一个重要因素,但光靠颜色是不足的。首先,摄像头之间是有色差,并且会有光照的影响。其次,有撞衫(颜色相似)的人怎么办,要找细节,但比如颜色直方图这种统计的特征就把细节给忽略了。在多个数据集上的测试表明,光用颜色特征是难以达到50%的top1正确率的。
基于人体在三维空间中的结构(结构信息),人体图像可以进行分割,按部件来执行匹配。
1.常见方案是水平切割,就是将图像切为几个水平的条。由于人体身材往往差不多,所以可以用简单的水平条来做一一比较。
2.在领域中做匹配,采用的是一个正方形的邻域。
3.另一个较新的方案是先在人体上检测部件(手,腿,躯干等等)再进行匹配,这样的话可以减少位置的误差,但可能引入检测部件的误差。
4. 类似LSTM的attention匹配,但必须pair输入,测试时间较长,不适合快速图像检索。
5. 如图,类似人脸对齐,使用STN 将行人整个图像先利用热度图对齐,再匹配。
基于高层语义信息,设置一些辅助任务,帮助模型学习到好的特征表达。
1. 身份损失(Identification loss)直接拿身份label做多类分类。
2. 鉴定损失(Verification loss)比较两个输入图像是否为同一人。
3. 身份损失(Identification loss)+鉴定损失(Verification loss),将以上两种损失函数混合。
4. 三样本损失 (Triplet loss) 以3个样本为一组,同一人的图像特征距离应小于不同人。
5. 加入属性任务 (attribute)比如判断是否背包,是男生还是女生等等。人们遇见陌生人也是利用这些属性来描述。
6. 数据增强 混合多数据集训练 ,加入训练集上 生成对抗网络(GAN)生成的数据。
DukeMTMC-reID
该数据集在杜克大学内采集,图像来自8个不同摄像头。该数据集提供训练集和测试集。 训练集包含16,522张图像,测试集包含 17,661 张图像。训练数据中一共有702人,平均每类(每个人)有23.5 张训练数据。是最大的行人重识别数据集,并且提供了行人属性(性别/长短袖/是否背包等)的标注。
DukeMTMC-attribute
该数据集基于DukeMTMC-reID数据集,加入了行人属性(如性别gender/是否背包bag等23种属性),并且提升了DukeMTMC 行人重识别的效果。
Market-1501
该数据集在清华大学校园中采集,图像来自6个不同的摄像头,其中有一个摄像头为低像素。同时该数据集提供训练集和测试集。 训练集包含12,936张图像,测试集包含19,732 张图像。图像由检测器自动检测并切割,包含一些检测误差(接近实际使用情况)。训练数据中一共有751人,测试集中有750人。所以在训练集中,平均每类(每个人)有17.2张训练数据。
DG-Market
该数据集利用Market数据集作为训练集,生成出来的图像组成。数据量约为Market-1501的十倍,共128,307张生成图像。可以用作半监督学习,辅助训练。
Market1501-attribute
该数据集基于Market-1501数据集,加入了行人属性(如性别/是否背包等27种属性),并且提升了Market-1501上行人重识别的效果。
CUHK03
该数据集在香港中文大学内采集,图像来自2个不同摄像头。该数据集提供 机器检测和手工检测两个数据集。 其中检测数据集包含一些检测误差,更接近实际情况。平均每个人有9.6张训练数据。
现有科研工作往往集中于二维的图像空间,2021年后发展方向渐渐向三维空间扩展,比如,将行人映射到三维空间,该数据集通过引入人体的三维几何结构来辅助行人识别。
通过对行人的语言描述来找到指定行人。 如图1,寻找蓝色衬衫的女性。
使用生成对抗网络(GAN)生成更多数据,辅助数据驱动的深度学习。
由于数据集与现实数据之间的差异,导致在数据集A上训练好的模型在现实数据B上性能表现不佳。 学界主要采用迁移学习的方法,在有标签的数据集A(比如Market-1501)和无标签数据集B(比如DukeMTMC-reID训练集抹掉训练标签)上训练,最后在数据集B的测试集上测试。
现有行人重识别模型的安全性也引起了很多学者的关注,在多种实际环境下(如季节变换,地区变换,低光照,遮挡)仍就有效。故一些方法通过在行人图像上添加微小的噪声,来攻击行人重识别模型,借此探究行人重识别模型的缺陷。通过对缺陷的研究,提升模型设计时对抗噪声的能力。