多目标跟踪MOT16数据集和评价指标-CFANZ编程社区

最近要做一个有关多目标跟踪的项目，刚刚接触MOT，所以先来了解一下MOT16这个比较经典的数据集以及比较经典的评价标准。

1. 多目标跟踪

多目标跟踪处理的对象是视频，从视频的第一帧到最后一帧，里边有多个目标在不断运动。多目标跟踪的目的就是将每个目标和其他目标进行区分开来，具体方法是给每个目标分配一个ID，并记录他们的轨迹。

已开始接触，可能觉得直接将目标检测的算法应用在视频的每一帧就可以完成这个任务了。实际上，目标检测的效果是很不稳定的，其实最大的区别在于，仅仅使用目标检测无法给对象分配ID，并且跟踪能够优化整个跟踪过程，能让目标框更加稳定。

多目标跟踪中一个比较经典的和深度学习结合比较好的方法就是Detection Based Tracking，对前后两帧进行目标检测检测，然后根据得到的前后两帧的所有目标进行匹配，从而维持ID。初学者接触比较多的就是SORT和Deep SORT算法了。

2. MOT16数据集

MOT16数据集是在2016年提出来的用于衡量多目标跟踪检测和跟踪方法标准的数据集，专门用于行人跟踪。官网地址是：https://motchallenge.net/

从官网下载的数据是按照以下的文件结构进行组织的：

- MOT16
  - train
    - MOT16-02
      - det
        - det.txt
      - gt
        - gt.txt
      - img1
      - seqinfo.init
    - MOT16-04
    - MOT16-05
    - MOT16-09
    - MOT16-10
    - MOT16-11
    - MOT16-13
  - test
    - MOT16-01
      - det
        - det.txt
      - img1
      - seqinfo.ini
    - MOT16-03
    - MOT16-06
    - MOT16-07
    - MOT16-08
    - MOT16-12
    - MOT16-14

在MOT16数据集中，是包含了检测得到的框的，这样是可以免去目标检测这个部分，提供统一的目标检测框以后，然后可以比较目标跟踪更关注的部分，而不用在花费精力在目标检测上。

seqinfo.ini

在每个子文件夹中都有这个，主要用于说明这个文件的一些信息，比如长度，帧率，图片的长和宽，图片的后缀名。

[Sequence]
name=MOT16-09
imDir=img1
frameRate=30
seqLength=525
imWidth=1920
imHeight=1080
imExt=.jpg

det.txt

这个文件中存储了图片的检测框的信息(检测得到的信息文件)，部分内容展示如下：

1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1
1,-1,571.03,402.13,104.56,315.68,1.5028,-1,-1,-1
1,-1,650.8,455.86,63.98,193.94,0.33276,-1,-1,-1
1,-1,721.23,446.86,41.871,127.61,0.27401,-1,-1,-1
2,-1,460.48,442.1,90.896,274.69,0.26749,-1,-1,-1
2,-1,643.66,461.78,59.629,180.89,0.18023,-1,-1,-1
2,-1,1494.4,408.29,112.14,338.41,0.16075,-1,-1,-1
2,-1,572.83,364.89,128.96,388.88,-0.011851,-1,-1,-1
3,-1,1359.1,413.27,120.26,362.77,2.3387,-1,-1,-1
3,-1,571.03,402.13,104.56,315.68,0.79923,-1,-1,-1
3,-1,1482.5,390.88,128.96,388.88,0.35271,-1,-1,-1
...
600,-1,708.37,476.87,20.435,63.306,-0.1483,-1,-1,-1
600,-1,421.14,446.86,41.871,127.61,-0.19971,-1,-1,-1
600,-1,613.25,412.69,51.78,157.34,-0.38627,-1,-1,-1
600,-1,375.27,454.06,48.246,146.74,-0.42444,-1,-1,-1

从左到右分别代表：

frame: 第几帧图片
id: 这个检测框分配的id，在这里都是-1代表没有id信息
bbox(四位): 分别是左上角坐标和长宽
conf：这个bbox包含物体的置信度，可以看到并不是传统意义的0-1，分数越高代表置信度越高
MOT3D(x,y,z): 是在MOT3D中使用到的内容，这里关心的是MOT2D，所以都设置为-1

可以看出以上内容主要提供的和目标检测的信息没有区别，所以也在一定程度上可以用于检测器的训练。

gt.txt

这个文件只有train的子文件夹中有，test中没有，其中内容的格式和det.txt有一些类似，部分内容如下：

1,1,912,484,97,109,0,7,1
2,1,912,484,97,109,0,7,1
3,1,912,484,97,109,0,7,1
...
136,1,912,484,97,109,0,7,0.93878
137,1,912,484,97,109,0,7,0.86735
138,1,912,484,97,109,0,7,0.79592
139,1,912,484,97,109,0,7,0.72449
140,1,912,484,97,109,0,7,0.65306
...
338,1,912,484,97,109,0,7,0
339,1,912,484,97,109,0,7,0
340,1,912,484,97,109,0,7,0
341,1,912,484,97,109,0,7,0
...
599,1,912,484,97,109,0,7,1
600,1,912,484,97,109,0,7,1

1,2,1338,418,167,379,1,1,1
2,2,1342,417,168,380,1,1,1
3,2,1346,417,170,380,1,1,1
...

从左到右分别是：

frame: 第几帧图片
ID:也就是轨迹的ID，可以看出gt里边是按照轨迹的ID号进行排序的
bbox: 分别是左上角坐标和长宽
是否忽略：0代表忽略
classes:目标的类别个数（这里是驾驶场景包括12个类别），7代表的是静止的人。
第8个类代表错检，9-11代表被遮挡的类别

多目标跟踪MOT16数据集和评价指标_评价标准

最后一个代表目标运动时被其他目标包含、覆盖、边缘裁剪的情况。

总结：

train中含有的标注信息主要来自det.txt和gt.txt。test中只含有det.txt。
det.txt含有的有用信息有：frame, bbox, conf
gt.txt含有的有用信息有：frame,bbox, conf, id, class
output.txt(使用deepsort得到的文件)中含有的有用信息有：frame,bbox, id

3. MOT中的评价指标

多目标跟踪MOT16数据集和评价指标_评价标准_02

评价出发点：

所有出现的目标都要及时能够找到；
目标位置要尽可能与真实目标位置一致；
每个目标都应该被分配一个独一无二的ID，并且该目标分配的这个ID在整个序列中保持不变。

评价指标数学模型：
评价过程的步骤：

建立目标与假设最优间的最优一一对应关系，称为correspondence
对所有的correspondence，计算位置偏移误差
累积结构误差 a. 计算漏检数 b. 计算虚警数（不存在目标却判断为目标） c. 跟踪目标发生跳变的次数

多目标跟踪MOT16数据集和评价指标_目标跟踪_03

MOTA(Multiple Object Tracking Accuracy)

\[MOTA=1-\frac{\sum(FN+FP+IDSW)}{\sum GT}\in (-\infty,1] \]

FN为False Negative, FP为False Positve, IDSW为ID Switch, GT是Ground Truth物体的数量。

MOTA主要考虑的是tracking中所有对象匹配错误，主要是FP,FN,IDs. MOTA给出的是非常直观的衡量跟踪其在检测物体和保持轨迹时的性能，与目标检测精度无关。

MOTA取值小于100，但是当跟踪器产生的错误超过了场景中的物体，MOTA可以变为负数。

ps: MOTA&MOTP是计算所有帧相关指标后再进行平均的，不是计算每帧的rate然后进行rate平均。

MOTP(Multiple Object Tracking Precision)

\[MOTP=\frac{\sum_{t,i}d_{t,i}}{\sum_tc_t} \]

d为检测目标\(i\)和给它分配的ground truth之间在所有帧中的平均度量距离，在这里是使用bonding box的overlap rate来进行度量（在这里MOTP是越大越好，但对于使用欧氏距离进行度量的就是MOTP越小越好，这主要取决于度量距离d的定义方式）；而c为在当前帧匹配成功的数目。MOTP主要量化检测器的定位精度，几乎不包含与跟踪器实际性能相关的信息。

MT(Mostly Tracked)

满足Ground Truth至少在80%的时间内都匹配成功的track，在所有追踪目标中所占的比例。注意这里的MT和ML与当前track的ID是否发生变化无关，只要Ground Truth与目标匹配上即可。

ML (Mostly Lost)

满足Ground Truth在小于20%的时间内匹配成功的track，在所有追踪目标中所占的比例。

ID Switch

Ground Truth所分配的ID发生变化的次数，如图1中(a)所示。

多目标跟踪MOT16数据集和评价指标_目标检测_04

FM (Fragmentation)

FM计算的是跟踪有多少次被打断（既Ground Truth的track没有被匹配上），换句话说每当轨迹将其状态从跟踪状态改变为未跟踪状态，并且在稍后的时间点跟踪相同的轨迹时，就会对FM进行计数。此处需要注意的是，FM计数时要求ground truth的状态需要满足：tracked->untracked->tracked，如图1中(b)所示，而(c)中的不算FM。需要注意的是，FM与ID是否发生变化无关。