计算机基础-数字媒体技术

文字、图片，照片、音频、视频等都是数字媒体，数字媒体技术就是对这些数字媒体进行处理的技术。
数字媒体是指二进制数的形式记录、处理、传播、获取过程的信息载体，包括数字化的文字、图形、图像、声音、视频影像和动画等感觉媒体机器表示媒体等(统称逻辑媒体)，以及存储、传输、显示逻辑每天的实物媒体；

媒介分类
(1). 感觉媒体：指能直接作用于人的感觉器官，使人产生直接感觉的一类媒体；
(2). 表示媒体：编码等；
(3). 显示(表现)媒体：输入显示媒体(键盘等)、输出显示媒体(显示器、投影仪等)；
(4). 存储媒体：存储器；
(5). 传输媒体：传输介质，即传输信息的物理设备；
数字媒体的特性
数字化、交互性、趣味性、集成性、技术与艺术结合

多媒体（Multimedia）

多媒体是指在计算机上集成了文字、图形、图像、声音、动画、视频等多种信息数字化，将他们有机结合起来并建立起逻辑关系，能支持完成一系列交互式操作的信息技术。

特点
集成性、交互性、多样性、数字化、实时性
有关技术
(1). 多媒体压缩/解压缩技术
a. 不压缩格式：BMP等；
b. 有损压缩格式：JPG、MPG等；
c. 无损压缩的格式：PNG、FLAC、APE等；
d. 压缩标准：JPEG—联合图像专家组、MPEG—动态图像专家组；
(2). 流媒体技术
流媒体是指在数据网络上按时间先后次序传输和播放的连续音/视频数据流，可以边下载边观看；
特点：连续性、实时性、时序性
应用：视频点播(VOD)、视频广播、远程教学等；
发展趋势
(1). 虚拟现实技术
虚拟现实(VR)，是一种可创建和体验虚拟世界的计算机仿真系统，其利用高性能计算机生成一种模拟环境，是一种多源信息融合的，交互式的三维动态视景和实体行为的系统仿真；
(2). 融媒体技术
融媒体是充分利用媒介载体，把广播、电视、报纸等既有共同点，又存在互补性的不同媒体，在人力、内容、宣传等方面进行全面整合，实现资源通融，内容兼容，宣传互融、利益共融的新型媒体；

数字图像处理过程

图像去噪
指减少数字图像中噪声的过程，现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，成为含噪图像或噪声图像；
图像增强
有目的的强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣单独特征，使之改善图像质量。丰富信息量，加强图像判读和识别效果，满足某些特殊分析的需要；
图像增强技术根据处理过程和所在的空间不同，可分为基于空域的算法和基于频域的算法两大类；
图像压缩
指较少的比特有损或无损地表示原来的像素矩阵的技术，也称图像编码；空间冗余、JPEG(联合图像专家组)—分为有损压缩、无损压缩；
图像复制将图像内容复制到其他位置的一种技术；
图像检索
(1). 基于文本的图像检索技术：利用文本描述的方式描述图像的特征；
(2). 基于内容的图像检索技术
图像分割
把图像分为若干个特定的、具有独特性质的区域并提出感兴趣的目标的技术和过程；
图像提取特征
使用计算机提取图像信息，常见的图像特征有：颜色特征、纹理特征、形状特征和空间关系特征；
图像存储
数字化图像数据有两种存储方式：位图存储、矢量存储；
包括：BMP、GIF、JPG/JPEG、PNG

数字声音

声音的数字化过程
(1). 采样：把时间连续的模拟信号转换成时间离散、幅度连续的信号；
(2). 量化：是将幅度上连续取值(模拟量)的每一个样本转换为离散值(数字量)表示；
(3). 编码：为了便于计算机的存储、处理和传输，还有将采样和量化处理后的声音信号，按照一定的要求进行数据压缩和编码；
音频容量计算公式
采样频率(Hz)×量化位数(bit)×声道数×时长(s)
特点
存储方便，存储手段多样，声音数据可以进行压缩；传输，存储成本低廉；进行声音的编辑和处理非常方便；
音频处理软件
(1). 专业音频处理软件：Adobe Audition等
(2). 非专业音频处理软件：
a. Windows录音机：WinXP默认WAV格式、Win7默认WMA格式、Win10默认.m4a格式；
b. GoldWave等；
c. 手机录音机：保存.m4a格式，可以编辑、转文本、倍数等

数字视频

拷贝不会失真、便于存储和通信、可长时间保存、支持非线性编辑、数据量大存储和传输时需要压缩编码等；

多媒体系统

由多媒体硬件系统和多媒体软件系统组成。
硬件系统主要包括：计算机主要配置，各种外部设备与外部设备的控制接口卡，多媒体设备。
软件系统主要包括：操作系统，驱动软件，多媒体应用软件，多媒体开发工具软件。

多媒体文件格式

图像信息表示

位图
(1). 图像信息的数字化
a. 采样：图像分辨率，位图是由 $n \times m$ 的像素矩阵组成，每个像素点只保存颜色信息；
b. 量化：颜色深度，指每个像素点使用多少位二进制保存颜色信息，有8位色、16位色(RGB真彩色)、32位色(24位色+8位alpha通道)；
c. 编码：有损压缩(JPEG)、无损压缩(GIF、PNG)、不压缩(BMP)；
(2). 位图图像大小计算
a. 存储容量=分辨率×颜色深度÷8，颜色深度的单位是“位bit”，图像容量的单位是字节(Byte，B)；
b. 颜色深度，又称量化位数，可计算颜色种类数，如24位真彩色，颜色种类数是2的24次方；
c. 分辨率×颜色深度÷8=存储量（字节B）
(3). 图像分类
a. 单色图像
指颜色单一的图像，并不是只有一种颜色
分为“二值图像”(每一个像素点只有黑白两种取值的图像)，可用于车辆识别和图像字符提取；“灰度图像”：灰度图像在黑色和白色之间还有许多级的颜色深度，一般灰度等级为8bit，即256级别；
b. 彩色图像
像素由多个颜色分量构成的图像，常见的有RGB模式（主要用于显示）、CMYK模式（用于印刷、打印输出）等；
颜色模式中，RGB代表三原色（Red红色，Green绿色，Blue蓝色），24位真彩色，RGB每种颜色通道位数是8位，每个颜色通道的强度位0-255共256级，可表示2的24次方种不同颜色；CMYK代表Cyan青色、Magenta品红、Yellow黄、Black黑；
动态图像：由连续的图像序列构成；
优点：色彩层次丰富，适合人像、风景等
缺点：缩放、旋转、变形后会失真；
矢量图
矢量图使用直线和曲线描述图形，通过数学公式计算获得，常用于图案、标志、VI、文字等设计；
常用的矢量图格式，Flash动画导出的格式.swf、AI/CAD/CDR等软件导出的.ai/.dwg/.cdr 和TrueType等矢量字；
优点：文件小，文件大小和分辨率无关，只与图像复杂度有关，对图形进行缩放、旋转或变形操作，不失真；
缺点：难以呈现色彩层次丰富的逼真图像效果；

图像文件格式

BMP：位图，bitmap
GIF：图形交换格式，Graphics Interchange Format
JPEG：联合图像专家组，Joint Photographic Experts Group
PNG：可移植网络图形，Portable Network Graphics
WMF：Windows图元文件，Windows Metafile
图像文件计算公式：
张数*分辨率*位数(b)/8 B主要是计算单位换算
当遇到色深时， $`n bit=2^n`$ 种色彩
即65536种色彩， $2^{16}$ ，即16位色，即2字节，即16/8=2B

音频信息的表示

波形数字音频
(1). 音频信息处理的流程
a. A/D转换、模拟音频数字化
过程：采样（将时间上连续的模拟信号转换成时间上离散的不连续信号，每秒钟采样的样本数量称为采样率，单位是Hz），量化（取样得到的每个样本使用8位、12位、14位、16位二进制表示称量化精度或量化位数，模拟量变成数字量；量化精度越高，保真度越好），编码（把数字化声音信息按一定数据格式表示）
b. 模拟信号：在时间上和幅度上都连续的信号；
c. 数字信号：把时间和幅度都用在离散的数字表示的信号称为数字信号；
d. 采样频率：录音设备在一秒钟内对声音信号的采集次数，是时间轴上的数字化；
电话：8kHz、AM广播：11.025kHz、FM广播：22.05kHz、CD音质：44.1kHz、数字电视、电影：48kHz、人耳识别范围：20Hz-20KHz；
e. 量化精度：表示应该样本的二进制位数，是幅度轴上的数字化；
f. 声道数：记录声音时，如果每次生成应该声波数据，称为单声道；每次生成两个声波数据，称为双声道（立体声）；
g. 奈奎斯特采样定理：在进行数模信号转换过程中，当采样频率大于信号中最高频率的2倍时，采样之后的数字信号完整的保留了原始信号中的信息；
h. D/A转换，数字音频模拟化，输出；
(2). 计算
波形音频文件容量的计算：容量=声道数×采样频率×量化位数×长度÷8，其中频率单位位Hz，量化单位是bit，长度为s，容量单位为Byte；
波形音频文件码率的计算：码率=声道数×采样频率×量化位数，码率单位是bps；
MIDI格式
乐器数字接口，MIDI传输的不是声音信号，而是音符、控制参数等指令，它指示电子乐器设备要做什么，怎么做，扩展名为.mid或.midi;

音频文件格式

.WAV：波形声音，Waveform Audio File Format，微软与BIM共同开发的PC音频格式，未压缩，声音可达到CD音质，码率在1.4Mb/s，WinXP录音机默认保存的音频文件格式；
MIDI：乐器数字接口，Musical Instrument Digital Interface，(存放的指令)
相同情况下，WAV文件比MIDI文件大
.MP3：MPEG音频层3，MPEG-1 Audio Layer 3，有损压缩，最常用，采用MPEG-1 Layer3音频压缩标准；
.WMA：Windows媒体音频，Windows Media Audio，微软的有损压缩音频文件格式，压缩比高于MP3，Windows7录音机默认保存的音频文件格式；
.m4a：苹果格式的无损压缩的音频格式，Windows10系统录音机默认保存的音频文件格式；
.FLAC：无损压缩文件格式，高品质数字音乐格式；
.APE：无损压缩音频文件格式；

视频信息表示

视频信号数字化
视频编码
(1). MPEG(动态图像专家组)
a. MPEG-1：应用于VCD、MP3；
b. MPEG-2：应用于数字点数，高清晰电视、DVD等；
c. MPEG-4：更适于交互AV(音视频)服务及远程监控；
(2). H.264
优点：低码率、高质量图像、容错能力强，网络适应性强；
计算
文件大小：存储容量-帧速率×分辨率×颜色深度×视频长度÷8，其中颜色深度的单位是bit，视频长度的单位是s，容量的单位是B；
码率：码率=帧速率×分辨率×颜色深度，其中帧速率单位是fps，颜色深度单位是bit，码率单位是bps；

视频文件格式

.AVI：音频视频交互格式，Audio Video Interleaved
.RM/.RMVB：实时媒体，Real Media，是多媒体容器格式；RMVB中VB指可变比特率，较上一代RM格式画面清晰，但降低了静态画面下的比特率；
.MPEG/.mp4：运动图像专家组，Moving Picture Experts Group，运动图像的压缩标准，mp4指MPEG-4；
.WMV：Windows媒体视频，Windows Media Video，是微软开发的一系列视频编解码和其相关的视频编码格式的统称；
.FLV：Flash视频，Flash Video，形成文件极小、加载速度极快；
.ASF：微软公司开发的串流多媒体格式，支持网络点播，直播功能及远程教育；
.MOV：苹果公司开发的QuickTime影片格式；
.MKV：携带了音频和字幕的视频文件格式，是一种开放标准的自由的容器格式和文件格式，是一种多媒体封装格式；

数字媒体信号转换

数字视频信息获取与处理过程
采样—>模数转换(A/D)—>压缩—>存储—>解压—>数模转化(D/A)—>显示
采样：将话筒转化过来的模拟电信号以某一频率进行离散化的样本采集；
量化：将采集到的样本电压或电流值进行等级量化处理；
编码：将被等级值变换成对应的二进制表示值(0和1)，并进行存储；
解码：又称解调，吧模拟网络中混合在模拟信号中的数字信号分离出来，调制解调器(ADSL“猫”)就是调制设备和解调设备的总和；

数字媒体的压缩与解压缩

DVD盘上的视频和音频信号采用国际标准MPEG-2进行压缩，而CD盘上的音频信号采用国际标准MPEG-1进行压缩。