新闻中心

当FAIR1M遇上PaddleDetection 2.0

2025-07-25
浏览次数:
返回列表
本文介绍将FAIR1M数据集与PaddleDetection 2.0结合的实践。先处理FAIR1M数据,解压后移除4张测试图,转为COCO格式;再安装PaddleDetection及旋转框算子,选用S2ANet模型,配置相关yml文件后训练,最后用测试图预测。训练有警告,预测角度有偏差,部分bug待修复。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

当fair1m遇上paddledetection 2.0 -

当FAIR1M遇上PaddleDetection 2.0

  • FAIR1M数据集1.0版本中包含了超过15000幅分辨率优于1米、尺寸从上千到上万像素不等的图像,其中包含了100多万精细化标注、具有任意角度分布的实例,场景覆盖全球上百个典型城市、乡镇,以及常用机场、港口等。同时根据遥感应用的实际需求,FAIR1M数据集将地物要素和典型目标进一步进行类型的细分。例如,依据型号将飞机细分为波音式(波音737、747、777和787等)、空客式(空客220、321、330和350等)以及国产式飞机(C919和ARJ21等)。目前已发布的FAIR1M数据集1.0版本中一共包含37个精细划分的类别。该数据集建设过程中得到了国家高分辨率对地观测系统重大科技专项支持,并于2025年2月被遴选为ISPRS科学创新项目(2025年度全球共7项),成为该协会高分辨率卫星图像目标识别研究的公开标准数据集。

    数据地址:http://gaofen-challenge.com/

当FAIR1M遇上PaddleDetection 2.0 -        

  • PaddleDetection飞桨目标检测开发套件,旨在帮助开发者更快更好地完成检测模型的组建、训练、优化及部署等全开发流程。PaddleDetection模块化地实现了多种主流目标检测算法,提供了丰富的数据增强策略、网络模块组件(如骨干网络)、损失函数等,并集成了模型压缩和跨平台高性能部署能力。目前PaddleDetection已经推出了最新的2.0版本,新增倾斜框的检测、高性价比的PPYOLO新品以及Anchor Free的SOTA模型PAFNet。

    github:https://github.com/PaddlePaddle/PaddleDetection

    gitee:https://gitee.com/paddlepaddle/PaddleDetection

0. 数据处理

0.1 解压数据集

解压数据集并且换个地方保存,方便自己管理文件。目前在官网下载的FAIR1M貌似只有part1,也就是1700多张图像,然后我看了一下找了四张不太一张的图像,作为我们结果的测试吧,我们把它们从训练数据中删除。

In [ ]
! unzip -oq /home/aistudio/data/data77871/FAIR1M.zip! mkdir -p datasets
! mv train/part1/images datasets
! mv train/part1/labelXmls datasets
! rm -rf train
    In [ ]
# 移除用来测试的4张import os

img_path = 'datasets/images'xml_path = 'datasets/labelXmls'names = ['1054.tif', '1066.tif', '1131.tif', '1442.tif']for name in names:
    _img = os.path.join(img_path, name)
    _xml = os.path.join(xml_path, name.replace('.tif', '.xml'))    if os.path.exists(_img):
        os.remove(_img)    if os.path.exists(_xml):
        os.remove(_xml)print('ok')
   

0.2 转换为COCO数据集

由于这个数据集不是标准的VOC格式,然后PaddleDetection的旋转框需要COCO格式的数据集,因此需要想办法转到COCO的格式。因为平时几乎没怎么做检测的任务,那些格式也不太清楚,卡了一下。后来想到一个曲线救国的方法,就是DOTA数据提供了转为COCO的代码,而这个数据集和DOTA的内容有点像(虽然格式啥的完全也不一样)。于是我写了一个fair1m2dota先把数据转为DOTA的数据,再修改dota2coco以此得到需要的COCO数据格式。DOTA 数据集中实例是按照任意四边形标注,最后转换成[xc, yc, bow_w, bow_h, angle]的格式。

In [ ]
! pip -q install shapely# 转化为cocofrom fair1m2coco import func2

func2('datasets', 'datasets/train.json')
   

1. 安装所需

由于旋转框需要额外的算子,所以这里需要安装旋转框的额外算子。

美图云修 美图云修

商业级AI影像处理工具

美图云修 50 查看详情 美图云修 In [ ]
# 克隆paddleDetection# ! git clone https://gitee.com/PaddlePaddle/PaddleDetection.git%cd PaddleDetection# 安装所需要的包! python setup.py install# 安装检测框所需要的算子%cd /home/aistudio/PaddleDetection/ppdet/ext_op
! python setup.py install# ! python test.py  # 测试算子
   

2. S2ANet

目前官方在旋转框上使用的模型为S2ANet模型。感觉除了论文也没多少人解读,检测不是特别懂,就不乱说细节了。

当FAIR1M遇上PaddleDetection 2.0 -        

3. 开始训练

在configs中新建自己任务的yml,参考dota的yml,设置好数据路径、轮数等等什么的,就可以开始跑了。

  • s2anet_fair1m.yml:基本的yml;
  • s2anet_reader.yml:在base下面,这里我啥也没改,参考吖吖查大佬所述,batchsize大于1会报错,还在修复,所以我也保持的1;
  • s2anet.yml:在base下面,网络的一些设置,不太清楚也没怎么改,也就是设置下权重和num_classes;
  • s2anet_optimizer_1x.yml:在base下面,学习率和轮数什么的可以在这里设置;
  • runtime.yml:在上一级,这里可以设置保存间隔和路径等等;
  • dota.yml:在datasets下面,里面需要设置一下数据的路径,需要注意test的anno_path设置为训练的json,否则会使用COCO默认的标签。

然后据吖吖查大佬所述,加上eval会导致报错,所以这里也没有进行验证,只能通过loss来查看训练的如何。

In [ ]
%cd /home/aistudio
! mkdir -p /home/aistudio/log
%cd PaddleDetection
! python tools/train.py -c configs/dota/s2anet_fair1m.yml -o use_gpu=true --use_vdl=True --vdl_log_dir=/home/aistudio/log
   

有很多这样的警告,我感到莫名其妙,明明都跑起来了,还说框有问题。

ppdet.data.source.coco WARNING: Found an invalid bbox in annotations: im_id: 1318, area: 0.0 x1: -0.5, y1: 96.5, x2: 0.5, y2: 97.5.
       

训练结果如下:

ppdet.engine INFO: Epoch: [29] [1700/1728] learning_rate: 0.000001 fam_cls_loss: 0.082565 fam_reg_loss: 0.036638 odm_cls_loss: 0.090113 odm_reg_loss: 0.111688 loss: 0.352884 eta: 0:00:06 batch_cost: 0.2364 data_cost: 0.0001 ips: 4.2298 images/s
   

4. 图像预测

预测的图像不知为何tif就没办法了,只得将jpg的图像放在了test_img中,用于预测,结果都保留在output中。

In [3]
%cd /home/aistudio/PaddleDetection
! python tools/infer.py -c configs/dota/s2anet_fair1m.yml \
    -o weights=output/s2anet_fair1m/model_last.pdparams \
    --infer_dir=test_img \
    --draw_threshold=0.5 \
    --output_dir=output
   

这里显示一下,看看大概的效果。这个图太大了,这样压缩在里面看不太清,可以去output中找到对应的原图。

In [2]
import matplotlib.pyplot as pltimport cv2

%matplotlib inline

names = ['1054.jpg', '1066.jpg', '1131.jpg', '1442.jpg']
plt.figure(figsize=(20,20))for i, name in enumerate(names):
    img_path = '/home/aistudio/PaddleDetection/output/' + name
    img = cv2.cvtColor(cv2.imread(img_path), cv2.COLOR_BGR2RGB)
    plt.subplot(2, 2, (i + 1));plt.imshow(img)
plt.show()
       
<Figure size 1440x1440 with 4 Axes>
               

总结说明

  • 大体看效果还可,总算转起来啦,但是旋转的角度感觉有偏差,应该是在转换中精度有所损失;
  • 目前PaddleDetection的旋转框还有点bug在修改,后面肯定会越来越好用的;
  • 关于警告数据集的事,实在搞不懂,请教J*aRoom大佬了,有知道的朋友欢迎评论区指导一下;
  • 由于发布新版本时PPDet超过了1000个文件,所以把其中的docs、demo、静态的contrib和静态的configs都删除了。

以上就是当FAIR1M遇上PaddleDetection 2.0的详细内容,更多请关注其它相关文章!


# git  # 企业推广网站成功的案例  # 榆树网站首页推广  # 凡科网站怎么推广产品  # 东莞搜索关键词排名查询  # 东丽区电商网站推广分类  # 玉溪城乡建设网站  # 所需要  # 报错  # 官网  # 波音  # 不太  # 也没  # 美图  # 一言  # 中文网  # 大佬  # coco  # fig  # udio  # igs  # cos  # ai  # python  # 抖音推广营销变现案例  # 苏州营销推广厂家排名  # 台州seo外包少行者seo05  # 网站建设背景介绍英文 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 折叠屏手机为什么没火  市盈率亏损是什么意思  vs怎么编写typescript  360n7锁屏壁纸怎么固定  faq是什么意思  万能表上的power是什么意思  如何用命令打开光驱  春运抢票可以抢几次啊  手机拍电脑屏幕有条纹怎么解决  j*a数组怎么保存类  苹果16有哪些改装模式  如何安装m.2固态硬盘  如果公司ttm市盈率为负数是什么意思  oppo手机nfc功能是什么意思  ka是什么意思  typescript如何使用viewer  j*a数组怎么存满  typescript和nodejs哪个好  如何用dos命令启动u盘  j*a 数组怎么循环输出  type-c接口接地是什么意思  索尼type-c接口是什么  望远镜上power是什么意思  云淡风轻什么意思  solo交友软件怎么恢复聊天记录  市盈率20a21e是什么意思  tft单片机怎么写彩屏  新买的固态硬盘如何查  固态硬盘2m如何修复  华为5g手机怎么用4g网络  什么叫typescript  5G手机导航怎么旋转  春运抢票技巧攻略  如何使用批处理命令编译vc程序  镜像ao3链接入口  什么是unix时间戳  摩托车上power是什么意思  使用typescript对团队有什么要求  苹果16系统网站有哪些  .asm如何在命令行运行  闲鱼上面的power是什么意思  苹果16哪些会降价的  固态硬盘损坏如何修复  单片机串口接收怎么实现  如何卸载typescript  ready是什么意思  如何以命令符运行程序  电动车power灯亮是什么意思  bc是什么意思  新网站如何填写域名解析 

搜索