视频处理
- 视频帧: 常见有I帧(关键帧,含完整画面,所以数据量大)、P帧(前向参考帧,参考前面I帧编码的图像信息)、B帧(双向预测帧,参考前面I帧、前面P帧和后面I帧编码的图像信息);我们网上看视频时常常会遇到拖动进度条出现回退一两秒的情况吧?因为那个位置的当前帧不是I帧,没有完整的画面。
- 分辨率: 图像的大小或尺寸,比如720,1080,2k,4k,后缀p代表逐行扫描,后缀i代表隔行扫描
- 比特率(码率): 单位时间内播放媒体(包括视频和音频)的比特数量(bit的数量)。文件大小计算公式:文件大小()= 码率 ( ) * 时间()
- 帧率(帧数): 画面每秒传输帧数,单位:fps(frame per second)或者 “赫兹”(Hz)。对于人眼感官常用范围在15~75fps之间。
- 刷新率: 屏幕在每秒刷新(画面)的次数。单位:赫兹(Hz)。
- 位深:通常指的是表示每个样本的位数,影响了图像或音频的质量和细节,比如RGB中使用一个字节表示一个颜色,那就是8位深
- dpi:每英寸的像素数,通常取决于多少像素才算清晰,这个参数按理说不是视频的参数,印刷海报的一般要求是300dpi
- PTS(Presentation Time Stamp): PTS represents the time at which a particular frame or sample should be presented or rendered to the user.
- DTS(Decoding Time Stamp): DTS represents the time at which a frame or sample is decoded.
码率的限制实际上是数据量的限制,直播等流媒体一般设置最大码率来限制视频大小,防止正常情况下,客户端带宽不足而卡顿。
编码器会根据最大码率来对视频进行有损压缩
I帧,P帧,B帧是h264
/h265
等编码格式的压缩手段,其他编码格式不一定存在这种概念
- GOP(Group of Pictures): 一组完整的视频帧,每组开头必为I帧,其他帧也可能为I帧,GOP一般是对直播流等流媒体设置的, 为了缓解网络因素造成的花屏
- gop一般设置为帧率的1~2倍
音频处理
- 采样率(Sample Rate):
- 定义了每秒从音频信号中提取的样本数。常见的采样率包括44.1 kHz(CD质量)、48 kHz(常用于视频制作)等。
- 比特深度(Bit Depth):
- 指定了每个音频样本的位数,决定了音频信号的动态范围。常见的比特深度包括16位、24位等。
- 声道(Channel):
- 表示音频信号的独立传输路径。单声道是单一的声音路径(例如,单声道音频),而立体声则包含左右两个声道。
- 编解码器(Codec):
- 用于将音频信号转换为数字格式(编码)或将数字格式转换回音频信号(解码)的算法或设备。常见的音频编解码器包括MP3、AAC、FLAC等。
- 频率(Frequency):
- 表示声波的振动次数,通常以赫兹(Hz)为单位。人类能听到的频率范围大约在20 Hz到20,000 Hz之间。
- 声波(Waveform):
- 表示声音的图形形状,用于可视化音频信号。波形可以是正弦波、方波、锯齿波等。
- 声学模型(Acoustic Model):
- 在语音识别中,指的是将声音与语音单位(音素)相关联的统计模型。
- 混音(Mixing):
- 将多个音频信号合并到一个单一的输出的过程。混音可以包括音量平衡、声道平衡等。
- 回声消除(Echo Cancellation):
- 用于减少或消除通信中的回声的技术,通常应用于语音通话和音视频会议。
- 音频效果(Audio Effects):
- 包括各种对音频信号进行修改或增强的处理,如均衡、混响、合唱效果等。
- 实时音频处理(Real-time Audio Processing):
- 需要在实时应用中进行音频处理的技术,例如实时音频流处理或实时音频效果应用。
- MIDI(Musical Instrument Digital Interface):
- 一种数字通信协议,用于控制音频设备、乐器和计算机之间的交互,通常用于音乐制作。
- 音频帧:由于一个时间戳太大,每个采样存一个时间戳得不偿失,所以引入了音频帧的概念,每个音频帧是多个音频采样的集合,具体播放时间也取决于PTS,PTS是这个音频帧开始播放第一个采样的时间
- 码率:音频也有码率的概念,通常为128Kbps
普遍认为,流畅不失真的音频要求40kHz 常见的音频采样率
- 8kHz: 音频通话与监控录音
- 22.05kHz,24kHz:FM调频广播
- 44.1kHz:CD品质
- 48kHz:一般网络视频和电影