TensorRTx

TensorRTx 旨在使用 TensorRT 网络定义 API 实现流行的深度学习网络。

为什么我们不使用解析器（ONNX 解析器、UFF 解析器、caffe 解析器等），而是使用复杂的 API 从头开始构建网络？我总结了以下几个方面的优势：

灵活性，易于修改网络、添加/删除层或输入/输出张量、替换层、合并层、将预处理和后处理集成到网络中等。
可调试性，以增量开发方式构建整个网络，易于获取中间层结果。
教育意义，在开发过程中了解网络结构，而不是将一切视为黑盒。

TensorRTx 的基本工作流程是：

从 pytorch、mxnet 或 tensorflow 等获取训练好的模型。一些 pytorch 模型可以在我的仓库 pytorchx 中找到，其余的来自流行的开源仓库。
将权重导出到纯文本文件 -- .wts 文件。
在 TensorRT 中加载权重，定义网络，构建 TensorRT 引擎。
加载 TensorRT 引擎并运行推理。

新闻

2024年7月29日。mpj1234：在 TensorRT 10.x API 中检查 YOLOv5、YOLOv8 和 YOLOv10，分支 → trt10
2024年7月29日。mpj1234：YOLOv10
2024年6月21日。WuxinrongY：YOLOv9-T、YOLOv9-S、YOLOv9-M
2024年4月28日。lindsayshuo：YOLOv8-pose
2024年4月22日。B1SH0PP：EfficientAd：在毫秒级延迟下实现准确的视觉异常检测。
2024年4月18日。lindsayshuo：YOLOv8-p2
2024年3月12日。lindsayshuo：YOLOv8-cls
2024年3月11日。WuxinrongY：YOLOv9：使用可编程梯度信息学习你想学习的内容
2024年3月7日。AadeIT：CSRNet：用于理解高度拥挤场景的空洞卷积神经网络
2023年10月17日。Rex-LK：YOLOv8-Seg
2023年6月30日。xiaocao-tian 和 lindsayshuo：YOLOv8
2023年3月1日。Nengwp：RCNN 和 UNet 升级以支持 TensorRT 8。
2022年12月18日。YOLOv5 升级以支持 v7.0，包括实例分割。
2022年12月12日。East-Face：UNet 升级以支持 Pytorch-UNet 的 v3.0 版本。
2022年10月26日。ausk：YoloP（用于全景驾驶感知的一次性查看）。

教程

测试环境

TensorRT 7.x
TensorRT 8.x（部分模型支持 8.x）

如何运行

每个文件夹内都有一个 readme，解释了如何运行其中的模型。

模型

以下模型已实现。

名称	描述
mlp	适合初学者的基础模型，有详细文档
lenet	最简单的模型，作为本项目的"Hello World"
alexnet	易于实现，所有层都支持TensorRT
googlenet	GoogLeNet (Inception v1)
inception	Inception v3, v4
mnasnet	来自论文的深度乘数为0.5的MNASNet
mobilenet	MobileNet v2, v3-small, v3-large
resnet	实现了resnet-18、resnet-50和resnext50-32x4d
senet	se-resnet50
shufflenet	输出通道为0.5x的ShuffleNet v2
squeezenet	SqueezeNet 1.1模型
vgg	VGG 11层模型
yolov3-tiny	权重和PyTorch实现来自ultralytics/yolov3
yolov3	darknet-53，权重和PyTorch实现来自ultralytics/yolov3
yolov3-spp	darknet-53，权重和PyTorch实现来自ultralytics/yolov3
yolov4	CSPDarknet53，权重来自AlexeyAB/darknet，PyTorch实现来自ultralytics/yolov3
yolov5	ultralytics/yolov5的yolov5 v1.0-v7.0，支持检测、分类和实例分割
yolov7	yolov7 v0.1，PyTorch实现来自WongKinYiu/yolov7
yolov8	yolov8，PyTorch实现来自ultralytics/ultralytics
yolov9	PyTorch实现来自WongKinYiu/yolov9
yolop	yolop，PyTorch实现来自hustvl/YOLOP
retinaface	resnet50和mobilnet0.25，权重来自biubug6/Pytorch_Retinaface
arcface	LResNet50E-IR、LResNet100E-IR和MobileFaceNet，权重来自deepinsight/insightface
retinafaceAntiCov	mobilenet0.25，权重来自deepinsight/insightface，RetinaFace抗COVID-19，检测人脸和口罩属性
dbnet	场景文本检测，权重来自BaofengZan/DBNet.pytorch
crnn	PyTorch实现来自meijieru/crnn.pytorch
ufld	PyTorch实现来自Ultra-Fast-Lane-Detection，ECCV2020
hrnet	hrnet图像分类和hrnet语义分割，PyTorch实现来自HRNet-Image-Classification和HRNet-Semantic-Segmentation
psenet	PSENet文本检测，TensorFlow实现来自liuheng92/tensorflow_PSENet
ibnnet	IBN-Net，PyTorch实现来自XingangPan/IBN-Net，ECCV2018
unet	U-Net，PyTorch实现来自milesial/Pytorch-UNet
repvgg	RepVGG，PyTorch实现来自DingXiaoH/RepVGG
lprnet	LPRNet，PyTorch实现来自xuexingyu24/License_Plate_Detection_Pytorch
refinedet	RefineDet，PyTorch实现来自luuuyi/RefineDet.PyTorch
densenet	DenseNet-121，来自torchvision.models
rcnn	FasterRCNN和MaskRCNN，模型来自detectron2
tsm	TSM：用于高效视频理解的时间偏移模块，ICCV2019
scaled-yolov4	yolov4-csp，PyTorch实现来自WongKinYiu/ScaledYOLOv4
centernet	CenterNet DLA-34，PyTorch实现来自xingyizhou/CenterNet
efficientnet	EfficientNet b0-b8和l2，PyTorch实现来自lukemelas/EfficientNet-PyTorch
detr	DE⫶TR，PyTorch实现来自facebookresearch/detr
swin-transformer	Swin Transformer - 语义分割，仅支持Swin-T。PyTorch实现来自microsoft/Swin-Transformer
real-esrgan	Real-ESRGAN。Pytorch实现见real-esrgan
superpoint	SuperPoint。Pytorch模型来自magicleap/SuperPointPretrainedNetwork
csrnet	CSRNet。Pytorch实现见leeyeehoo/CSRNet-pytorch
EfficientAd	EfficientAd：毫秒级延迟的精确视觉异常检测。源自anomalib

模型库

可以从模型库下载.wts文件以进行快速评估。但建议从pytorch/mxnet/tensorflow模型转换.wts文件，这样您就可以重新训练自己的模型。

Google云盘 | 百度网盘密码: uvv2

棘手操作

在这些模型中遇到的一些棘手操作，已经解决，但可能有更好的解决方案。

名称	描述
BatchNorm	通过缩放层实现，用于resnet、googlenet、mobilenet等。
MaxPool2d(ceil_mode=True)	在最大池化前使用填充层解决ceil_mode=True，参见googlenet。
带填充的平均池化	必要时使用setAverageCountExcludesPadding()，参见inception。
relu6	使用`Relu6(x) = Relu(x) - Relu(x-6)`，参见mobilenet。
torch.chunk()	通过tensorrt插件实现'chunk(2, dim=C)'，参见shufflenet。
通道重排	使用两个重排层实现`channel_shuffle`，参见shufflenet。
自适应池化	使用固定输入维度，并使用常规平均池化，参见shufflenet。
leaky relu	我编写了一个leaky relu插件，但可以使用`NvInferPlugin.h`中的PRelu，参见`trt4`分支中的yolov3。
yolo层 v1	yolo层作为插件实现，参见`trt4`分支中的yolov3。
yolo层 v2	在一个插件中实现三个yolo层，参见yolov3-spp。
上采样	替换为反卷积层，参见yolov3。
hsigmoid	硬sigmoid作为插件实现，hsigmoid和hswish用于mobilenetv3
retinaface输出解码	实现插件以解码边界框、置信度和关键点，参见retinaface。
mish	mish激活函数作为插件实现，mish用于yolov4
prelu	mxnet的具有可训练gamma的prelu激活作为插件实现，用于arcface
HardSwish	hard_swish = x * hard_sigmoid，用于yolov5 v3.0
LSTM	使用tensorrt api实现pytorch nn.LSTM()

速度基准

模型	设备	批量大小	模式	输入形状(高x宽)	FPS
YOLOv3-tiny	Xeon E5-2620/GTX1080	1	FP32	608x608	333
YOLOv3(darknet53)	Xeon E5-2620/GTX1080	1	FP32	608x608	39.2
YOLOv3(darknet53)	Xeon E5-2620/GTX1080	1	INT8	608x608	71.4
YOLOv3-spp(darknet53)	Xeon E5-2620/GTX1080	1	FP32	608x608	38.5
YOLOv4(CSPDarknet53)	Xeon E5-2620/GTX1080	1	FP32	608x608	35.7
YOLOv4(CSPDarknet53)	Xeon E5-2620/GTX1080	4	FP32	608x608	40.9
YOLOv4(CSPDarknet53)	Xeon E5-2620/GTX1080	8	FP32	608x608	41.3
YOLOv5-s v3.0	Xeon E5-2620/GTX1080	1	FP32	608x608	142
YOLOv5-s v3.0	Xeon E5-2620/GTX1080	4	FP32	608x608	173
YOLOv5-s v3.0	Xeon E5-2620/GTX1080	8	FP32	608x608	190
YOLOv5-m v3.0	Xeon E5-2620/GTX1080	1	FP32	608x608	71
YOLOv5-l v3.0	Xeon E5-2620/GTX1080	1	FP32	608x608	43
YOLOv5-x v3.0	Xeon E5-2620/GTX1080	1	FP32	608x608	29
YOLOv5-s v4.0	Xeon E5-2620/GTX1080	1	FP32	608x608	142
YOLOv5-m v4.0	Xeon E5-2620/GTX1080	1	FP32	608x608	71
YOLOv5-l v4.0	Xeon E5-2620/GTX1080	1	FP32	608x608	40
YOLOv5-x v4.0	Xeon E5-2620/GTX1080	1	FP32	608x608	27
RetinaFace(resnet50)	Xeon E5-2620/GTX1080	1	FP32	480x640	90
RetinaFace(resnet50)	Xeon E5-2620/GTX1080	1	INT8	480x640	204
RetinaFace(mobilenet0.25)	Xeon E5-2620/GTX1080	1	FP32	480x640	417
ArcFace(LResNet50E-IR)	Xeon E5-2620/GTX1080	1	FP32	112x112	333
CRNN	Xeon E5-2620/GTX1080	1	FP32	32x100	1000