当训练集、验证集(开发集)、测试集来源不同,即分布不同时。需要对其进行处理。
![[数学理论]不同分布训练集、验证集、测试集处理_系统性能](https://file.cfanz.cn/uploads/jpeg/2022/12/17/17/JdDJ8P3956.jpeg)
![[数学理论]不同分布训练集、验证集、测试集处理_数据_02](https://file.cfanz.cn/uploads/jpeg/2022/12/17/17/67080cPQ96.jpeg)
如上图所示:测试集数据来源于网上清晰图像,而验证集、测试集数据来源于业余人士手机拍照照片。
假设网上下载的照片数据集大小为200000,而手机拍摄的照片数据集大小为10000。
![[数学理论]不同分布训练集、验证集、测试集处理_数据集_03](https://file.cfanz.cn/uploads/jpeg/2022/12/17/17/88T28YbJIC.jpeg)
有两种处理方式:
一种将网上数据和手机数据混合,然后将数据随机分配给训练集、验证集和测试集。这种方式最后应用效果不好,如上图的1图。
另外一种将网上数据作为训练集,并添加部分手机数据作为训练集。剩余手机数据作为验证集和测试集,如上图的2图。从长期来看,这种处理方式能够带来更好的系统性能。










