视频质量常用指标

您可以轻松计算以下视频质量指标：

FVD：Frechét视频距离
SSIM：结构相似性指数
LPIPS：学习的感知图像块相似度
PSNR：峰值信噪比

关于FVD

代码库参考了MVCD和其他网站和项目，我只是提取了与计算相关的部分。这段代码可用于评估生成或预测模型的FVD分数。
现在我们支持2种基于PyTorch的FVD实现（videogpt和styleganv，参见问题#4）。它们的计算几乎相同，差异可以忽略不计。
FVD计算两组视频之间的特征距离。（每个视频的I3D特征不经过softmax()函数，最后一个维度的大小是400，而不是1024）

此外...

本项目支持灰度和RGB视频。
本项目支持Ubuntu，但在Windows上可能存在一些问题。如果您能解决，欢迎提交PR。
如果项目无法正常运行，请提交issue或PR~
更多详细信息请参见下方注意事项。

示例

一批8个视频，每个10帧，3通道，64x64大小。

import torch
from calculate_fvd import calculate_fvd
from calculate_psnr import calculate_psnr
from calculate_ssim import calculate_ssim
from calculate_lpips import calculate_lpips

NUMBER_OF_VIDEOS = 8
VIDEO_LENGTH = 30
CHANNEL = 3
SIZE = 64
videos1 = torch.zeros(NUMBER_OF_VIDEOS, VIDEO_LENGTH, CHANNEL, SIZE, SIZE, requires_grad=False)
videos2 = torch.ones(NUMBER_OF_VIDEOS, VIDEO_LENGTH, CHANNEL, SIZE, SIZE, requires_grad=False)
device = torch.device("cuda")
device = torch.device("cpu")

import json
result = {}
result['fvd'] = calculate_fvd(videos1, videos2, device, method='styleganv')
# result['fvd'] = calculate_fvd(videos1, videos2, device, method='videogpt')
result['ssim'] = calculate_ssim(videos1, videos2)
result['psnr'] = calculate_psnr(videos1, videos2)
result['lpips'] = calculate_lpips(videos1, videos2, device)
print(json.dumps(result, indent=4))

这意味着我们计算：

FVD-frames[:10]、FVD-frames[:11]、...、FVD-frames[:30]
avg-PSNR/SSIM/LPIPS-frame[0]、avg-PSNR/SSIM/LPIPS-frame[1]、...、avg-PSNR/SSIM/LPIPS-frame[:30]，以及它们的标准差。

我们无法计算FVD-frames[:8]，在计算时会跳过，参见注意事项6。

结果显示：全零矩阵和全一矩阵的FVD-30（FVD[:30]）为151.17（styleganv方法）。我们还计算了它们的标准差。其他指标也是如此。我们使用styleganv的计算方法。

{
    "fvd": {
        "value": {
            "10": 570.07320378183,
            "11": 486.1906542471159,
            "12": 552.3373915075898,
            "13": 146.6242330185728,
            "14": 172.57268402948895,
            "15": 133.88932632116126,
            "16": 153.11023578170108,
            "17": 357.56400892781204,
            "18": 382.1335612721498,
            "19": 306.7100176942531,
            "20": 338.18221898178774,
            "21": 77.95587603163293,
            "22": 82.49997632357349,
            "23": 64.41624523513073,
            "24": 66.08097153313875,
            "25": 314.4341061962642,
            "26": 316.8616746151064,
            "27": 288.884418528541,
            "28": 287.8192683223724,
            "29": 152.15076552354864,
            "30": 151.16806952692093
        },
        "video_setting": [
            8,
            3,
            30,
            64,
            64
        ],
        "video_setting_name": "batch_size, channel, time, heigth, width"
    },
    "ssim": {
        "value": {
            "0": 9.999000099990664e-05,
            "...": "...",
            "29": 9.999000099990664e-05
        },
        "value_std": {
            "0": 0.0,
            "...": "...",
            "29": 0.0
        },
        "video_setting": [
            30,
            3,
            64,
            64
        ],
        "video_setting_name": "time, channel, heigth, width"
    },
    "psnr": {
        "value": {
            "0": 0.0,
            "...": "...",
            "29": 0.0
        },
        "value_std": {
            "0": 0.0,
            "...": "...",
            "29": 0.0
        },
        "video_setting": [
            30,
            3,
            64,
            64
        ],
        "video_setting_name": "time, channel, heigth, width"
    },
    "lpips": {
        "value": {
            "0": 0.8140146732330322,
            "...": "...",
            "29": 0.8140146732330322
        },
        "value_std": {
            "0": 0.0,
            "...": "...",
            "29": 0.0
        },
        "video_setting": [
            30,
            3,
            64,
            64
        ],
        "video_setting_name": "time, channel, heigth, width"
    }
}

注意事项

首先需要运行 pip install lpips。
确保视频的像素值在 [0, 1] 范围内。
如果下载FVD预训练模型时出现问题，您应该手动下载以下任一文件并将其放入FVD文件夹中。
- 从这里下载 i3d_torchscript.pt
- 从这里下载 i3d_pretrained_400.pt
对于灰度视频，我们将其复制到3个通道如这里所说。
当图像有3个通道时，我们对SSIM取平均值，SSIM是唯一一个对灰度与黑白比较极为敏感的指标。
由于i3d模型在时间维度上进行了下采样，计算FVD时 frames_num 应该 > 10，因此FVD计算从第10帧开始，如上面的例子所示。
最好使用 scipy==1.7.3/1.9.3，如果使用1.11.3，您将计算出错误的FVD值！
如果您在多GPU机器上运行demo.py，请记得设置 export CUDA_VISIBLE_DEVICES=0，参见这里。