ffmpeg + cuda(cuvid) 硬解码+像素格式转换(cpu主导)实战

ffmpeg + cuda(cuvid) 硬解码+像素格式转换(cpu主导)实战

注意:

VAAPI 是inter gpu 提供的硬编解码接口VDPAU 是 video decode present api for unixnvdec / ncvid 都是nivida产出的硬解接口,区别在于解码方式,和数据传输方式不同nvenc nivida 硬编接口

编译 & 运行

linux: gcc -g video_decode_gpu.c `pkg-config –libs libavformat libavcodec libswresample libswscale libavutil` -o video_decode_gpurun cmd: ./video_decode_gpu data/left.mp4 ./bmp

gpu解码原理

问题1? gpu 解码 是把内存中AVPacket 拷贝到gp显存中进行处理的吗? 看来是的,代码中通过 av_read_frame(input_ctx, &packet) 读取数据包,其数据操作流向应该是 video file -> memory问题2? gpu 解码 的 数据流向? videofile-> avpacket ->decoding frame’s in gpu-> transfer rame in gpu into host memory问题3? gpu 解码数据 cuvid 解码器,也是api,对应的数据操作流向? videofile-> avpacket ->decoding frame’s in gpu-> transfer rame in gpu into host memory

VDPAU 简介

Developed by NVIDIA for Unix/Linux systems. To enable this you typically need the libvdpau development package in your distribution, and a compatible graphics card. Note that VDPAU cannot be used to decode frames in memory, the compressed frames are sent by libavcodec to the GPU device supported by VDPAU and then the decoded image can be accessed using the VDPAU API. This is not done automatically by FFmpeg, but must be done at the application level (check for example the ffmpeg_vdpau.c file used by ffmpeg.c). Also, note that with this API it is not possible to move the decoded frame back to RAM, for example in case you need to encode again the decoded frame (e.g. when doing transcoding on a server). Several decoders are currently supported through VDPAU in libavcodec, in particular H.264, MPEG-1/2/4, and VC-1. 翻译: 由NVIDIA开发的Unix / Linux系统。 要启用此功能,您通常需要分发中的libvdpau开发包和兼容的图形卡。 注意,VDPAU不能用于解码内存中的帧,压缩帧由libavcodec发送到VDPAU支持的GPU设备,然后可以使用VDPAU API访问解码图像。 这不是由FFmpeg自动完成的,但必须在应用程序级别完成(例如检查ffmpeg.c使用的ffmpeg_vdpau.c文件)。此外,请注意,使用此API时,无法将解码后的帧移回RAM,例如,如果您需要再次对解码帧进行编码(例如,在服务器上进行转码时)。 目前通过libavcodec中的VDPAU支持几个解码器,特别是H.264,MPEG-1/2/4和VC-1。

VDPAU 学习:

VdpDecoder -> 解码 压缩包数据VdpVideoSurface -> 解码完数据放置的空间VdpVideoMixer -> 对解码完的数据做后置处理VdpOutputSurface -> 处理完数据放置的位置

cuvid 与 VDPAU 是平级的东西,不能拿来直接使用,使用成本太大

cuvid 学习

cuvid nvidia 提供的gpu 视频硬解码库,底层依赖cuda并行计算框架 将cpu 解码转化到gpu 解码上,减少cpu压力,提升解码速度

CUVID 硬解码

note:

cuvid nvdec 两者都是解码api,不同点在于解码方式 & 数据传输nvenc vaapi cdpau 都是硬件编解码api

CUVID解码rtsp视频流

note

OpenCV中VideoReader_GPU可以方便地利用GPU读取视频文件,加速解码过程,但OpenCV中VideoReader_GPU无法读取rtsp视频流数据。

这是因为CUVID中CuvideoSource不支持rtsp视频流数据,不能由rtsp地址创建VideoSource。

但是videoSource 支持 视频文件

查看nvidia 驱动 & nvcc 版本

cat /proc/driver/nvidia/version nvcc编译器的版本nvcc -V

Note: For Video Codec SDK 7.0 and later, NVCUVID has been renamed to NVDECODE API.

编译 & 运行

领取C++音视频开发学习资料:点击 音视频开发(资料文档+视频教程+面试题)(FFmpeg+WebRTC+RTMP+RTSP+HLS+RTP)

编译

linux: gcc -g hw_decode_cuvid.c `pkg-config –libs libavformat libavcodec libswresample libswscale libavutil` -o hw_decode_cuvid

运行

./hw_decode_cuvid cuda input_data/left.mp4 ./output_data/raw.out

运行结果

raw.out 文件生成

raw.out 文件生成

cpu 软解码 cpu 占用率

cpu 软解码 cpu使用率g

gpu cuvid 硬解码 cpu 占用率

gpu 硬解码 cpu使用率

gpu 硬解码 gpu 使用情况

gpu 硬解码 gpu 使用情况

问题:

1、为什么 gpu 硬解码显卡使用率那么低?需要排查下问题。

2、将 gpu 中frame 直接做 AV_PIX_FMT_CUDA-> AV_PIX_FMT_BGR24 转化 不能直接用 sws_getContext ,如何才能实现

3、ffmpeg 将 gpu解码 数据的像素格式进行 yuv-rgb 格式转换 ,是否直接支持,是否需要自己写函数

4、将 gpu 中数据直接存储在磁盘上? 如果不可以的话 ,则进行 device data ->host memory data ->file

5、数据拷贝方式 transfer_data_from 源码

gpu decoded frame pix format AV_PIX_FMT_CUDA 直接在显存中 转化为 AV_PIX_FMT_BGR24

可行路径,试了三种:

两种cpu层面转换像素格式 的方法(1种失败,1种成功);直接使用ffmpeg api 在gpu层面进行像素格式转换(失败)

CPU 主导像素转换

1. 使用 sws_scale 实现 AV_PIX_FMT_CUDA-> AV_PIX_FMT_BGR24 的直接转换(cpu 层面)

这是我第一次使用的方式,模仿 cpu 上软解码(获取视频帧,并存储为bmp格式,经验原则,这种方式最容易想到)运行结果:失败,bad src img pointers运行结果如下图所示:

问题原因:

如代码 hw_decode_cuvid_origin.c 中所示, 直接通过transfer_data 将gpu 中解码后的frame download到系统内存,则系统内存中的frames piex->format 仍为 AV_PIX_FMT_CUDA ,而 AV_PIX_FMT_CUDA 是gpu 显存中存储的解码后的帧像素格式所以通过 sws_scale 是不能直接change的

GPU 主导像素转换

gpu 不支持 sws_scale + AV_PIX_FMT_CUDA-> AV_PIX_FMT_BGR24 的直接像素转换方式,那么 能否直接在gpu中直接转化 AV_PIX_FMT_CUDA 为 AV_PIX_FMT_BGR24呢?如果可以直接实现,性能会有很大提升,因为减少了device->host 的数据传输,且gpu多核心并行处理,肯定比cpu处理性能要强悍。

av_hwframe_transfer_data() 执行操作前 设置 内存中目标frame的像素格式为 AV_PIX_FMT_BGR24,gpu 黑盒操作实现在gpu上直接将像素格式转化为目标bgr24格式

运行结果:失败,像素没对齐,只有亮度运行结果如下图所示:![预先设置内存中frame目标像素格式为 AV_PIX_FMT_BGR24]

问题原因:如下图所示:

问题原因-transfer_data_pix_format_limit

红框表示的意思为:src->frame->format 转换为 dst->frame->format 是受限制的,主要是受av_hwframe_transfer_get_formats() 函数返回的formats 列表限制

所以gdb了下源码,发现src->frame->format 转换为 dst->frame->format 的受限范围很小,然后找出了 av_hwframe_transfer_get_formats 支持的formats,调试过程如下所示:gdb -tui hw_decode_cuvid (-tui 支持查看源码)

gdb_tui.png

在调用 av_hwframe_transfer_data() 函数处打上断点,且设置程序运行所需参数

enter_break_point.png

run 程序,step 进入函数调用栈

run & step-run_enter_func_call_stack

n 单步运行,函数调用至 transfer_data_alloc()

enter_transfer_data_alloc.png

领取C++音视频开发学习资料:点击 音视频开发(资料文档+视频教程+面试题)(FFmpeg+WebRTC+RTMP+RTSP+HLS+RTP)

发现 av_hwframe_transfer_get_formats()函数

find_func_call_av_hwframe_transfer_get_formats.png

更改 dst->format 的值为<0的值,并打印支持的像素转换列表

get_can_changed_pix_formats.png

可以看到只支持 gpu 硬件像素编码格式->AV_PIX_FMT_NV12 的转换

CPU 主导像素转换

经过前两次的试验,可以明确当前最新版本的ffmpeg还不支持硬解完成之后直接将像素格式转换为目标rgb24数据,还是回归到 cpu + sws_scale 上,经过第二步,可以知道AV_PIX_FMT_CUDA->AV_PIX_FMT_NV12这条路行的通,AV_PIX_FMT_NV12 其实是 YUV 格式的数据,yuv 数据到 rgb 的像素转换是完全支持的,所以就自然编写了 AV_PIX_FMT_CUDA->AV_PIX_FMT_NV12->AV_PIX_FMT_BGR24 的代码,经测试没问题。当然,不可否认:实现 AV_PIX_FMT_CUDA-> AV_PIX_FMT_NV12->AV_PIX_FMT_BGR24 格式转换 (cpu 实现 pix format 转换,这种cpu层面上的像素格式转换方式比较弱)

运行结果:成功,如下图所示:

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2022年6月23日
下一篇 2022年6月23日

相关推荐

  • 高考结束,我推荐这三款红米手机送给孩子,都是性能拉满的配置

    科技数码今日资讯: 高考已经结束许久了,你的孩子或许因为学习原因一直没有玩过什么手机,毕业了也该给孩子一部耐用性价比的手机了,今天我就给大家推荐三款。 第一款:红米k40s 这款手…

    2022年6月13日
  • 白话讲清楚笔记本电脑处理器,显卡,屏幕,内存,硬盘等配置信息

    笔记本配置必知 屏幕选择 轻薄笔记本日常13或者14英寸就够了,而需要买高性能的游戏本肯定是屏幕越大越好,15,6英寸是最基本的屏幕要求。 如果是专业的设计图像处理者,对屏幕分辨率…

    2022年6月25日
  • iQOO10配置拉满,200W+骁龙8Gen2,影像系统是亮点

    在当下手机市场中,iQOO是一家非常独特的手机厂商,虽然是Vivo的子厂商,但综合表现并不比Vivo差,主打电竞手机。iQOO的电竞手机与其它游戏手机有所不同,拥有更全面的配置,其…

    2022年6月24日
  • 尼康Z 8外观疑似“谍照”惊现网络

    尼康Z 8似乎离我们越来越近了,国外有ID名为“How2fly”的人士在其社交媒体Facebook上曝光了一张疑似Z 8的外观图谍照。通过这张照片,让我们对Z 8有了更直观的了解:…

    2022年8月3日
  • 如何看待房贷利率持续下行

    个人住房贷款利率下行备受市场关注。贝壳研究院监测数据显示,7月份103个重点城市的主流首套房贷利率为4.35%,二套房贷利率为5.07%,整体房贷利率创2019年以来新低。与此同时…

    2022年8月7日
  • 聊聊MySQL的10大经典错误

    今天就给大家列举 MySQL 数据库中,最经典的十大错误案例,并附有处理问题的解决思路和方法,希望能给刚入行,或数据库爱好者一些帮助,今后再遇到任何报错,我们都可以很淡定地去处理。…

    2022年6月25日
  • 泰式按摩知多少?

    泰国,一个古老神秘的东南南亚国度。 这里独特的风土人情,每年都吸引着众多游客观光旅游,泰丝,泰拳,泰国菜,佛牌更是闻名全球,而最出名的还莫过于泰国国粹——泰式按摩。 泰式按摩风靡全…

    2022年8月12日
  • 17年销量正增长或将终结,雷克萨斯在中国为什么卖不动了?

    记者 | 周姝祺 编辑 | 二线豪华品牌“顶流”雷克萨斯在华连续17年销量正增长的神话似乎将要终结。 根据乘联会公布的进口乘用车销量数据,上半年雷克萨斯进口量为8.6万辆,较去年同…

    2022年8月18日
  • 珠宝首饰想要发挥200%效果,镶嵌工艺是重中之重,多戴这些珠宝

    珠宝天生就有着绽放璀璨光芒的特性,当一颗颗钻石珠宝呈现在你面前时,没有人不会被这耀眼且精致的珠宝所深深吸引,而这仅仅是原石的天然特性。实际上,那些完美的珠宝成品要更加漂亮百倍,是因…

    2022年8月11日
  • 算力产业规模近五年平均增速超过30%,算力如何赋能产业智能化升级?

    算力,是指每秒钟能够处理的信息数据量,它被称为继热力、电力之后最新的生产力。红星资本局从工信部获悉,我国算力规模排名全球第二,算力产业规模近五年平均增速超过30%。 人工智能时代,…

    2022年8月1日

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息