psola算法

发布时间: 2022-05-03 10:39:01

A. 语音合成器是什么

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上，则称为语音合成器，而语音合成器可以用软/硬件所实现。文字转语音(text-to-speech, TTS)系统则是将一般语言的文字转换为语音，其他的系统可以描绘语言符号的表示方式，就像音标转换至语音一样。

而合成后的语音则是利用在数据库内的许多已录好的语音连接起来。系统则因为储存的语音单元大小不同而有所差异，若是要储存phone以及 diphone的话，系统必须提供大量的储存空间，但是在语意上或许会不清楚。而用在特定的使用领域上，储存整字或整句的方式可以达到高品质的语音输出。另外，包含了声道模型以及其他的人类声音特征参数的合成器则可以创造出完整的合成声音输出。

一个语音合成器的品质通常是决定于人声的相似度以及语意是否能被了解。一个清晰的文字转语音程式应该提供人类在视觉受到伤害或是得到失读症时，能够听到并且在个人电脑上完成工作。从80年代早期开始，许多的电脑操作系统已经包含了语音合成器了。
早在17世纪就有法国人研发机械式的说话装置。[来源请求]直到19世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。贝尔实验室在1939年制作出第一个电子语音合成器VODER[1]，是一种利用共振峰原理所制作的合成器。

1960年，瑞典语言学家G. Fant则提出利用线性预测编码技术(LPC)来作为语音合成分析技术，并推动了日后的发展。后来1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA，此技术可以合成比较自然的语音。

B. TTS是什么意思呢

TTS是指一项语音合成技术。

语音合成是将人类语音用人工的方式所产生。若是将电脑系统用在语音合成上，则称为语音合成器，而语音合成器可以用软/硬件所实现。

文字转语音系统则是将一般语言的文字转换为语音，其他的系统可以描绘语言符号的表示方式，就像音标转换至语音一样。

(2)psola算法扩展阅读：

发展历史

1、17世纪法国人研发机械式的说话装置，直到19世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。

2、贝尔实验室在1939年制作出第一个电子语音合成器VODER，是一种利用共振峰原理所制作的合成器。

3、1960年，瑞典语言学家G. Fant则提出利用线性预测编码技术（LPC）来作为语音合成分析技术，并推动了日后的发展。

4、1980年代Moulines E和Charpentier F提出新的语音合成算法PSOLA，此技术可以合成比较自然的语音。

C. 语音合成的合成技术

波形拼接技术的发展与语音的编、解码技术的发展密不可分，其中LPC技术（线性预测编码技术）的发展对波形拼接技术产生了巨大的影响。LPC合成技术本质上是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。
LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合成基元来说能够获得很高的自然度。
但是，由于自然语流中的语音和孤立状况下的语音有着极大的区别，如果只是简单地把各个孤立的语音生硬地拼接在一起，其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音+重放，对于合成整个连续语流LPC合成技术的效果是不理想的。因此，LPC合成技术必须和其他技术相结合，才能明显改善LPC合成的质量。 20世纪80年代末提出的PSOLA合成技术（基音同步叠加技术）给波形拼接合成技术注入了新的活力。PSOLA技术着眼于对语音信号超时段特征的控制，如基频、时长、音强等的控制。而这些参数对于语音的韵律控制以及修改是至关重要的，因此，PSOLA技术比LPC技术具有可修改性更强的优点，可以合成出高自然度的语音。
PSOLA技术的主要特点是：在拼接语音波形片断之前，首先根据上下文的要求，用PSOLA算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度。
PSOLA技术保持了传统波形拼接技术的优点，简单直观，运算量小，而且还能方便地控制语音信号的韵律参数，具有合成自然连续语流的条件，得到了广泛的应用。
但是，PSOLA技术也有其缺点。首先，PSOLA技术是一种基音同步的语音分析/合成技术，首先需要准确的基因周期以及对其起始点的判定。基音周期或其起始点的判定误差将会影响PSOLA技术的效果。其次，PSOLA技术是一种简单的波形映射拼接合成，这种拼接是否能够保持平稳过渡以及它对频域参数有什么影响等并没有得到解决，因此，在合成时会产生不理想的结果。随着人们对语音合成的自然度和音质的要求越来越高，PSOLA算法表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷，因此，人们又提出了一种基于LMA声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点，同时又具有比PSOLA算法更高的合成音质。
这两种技术各有所长，共振峰技术比较成熟，有大量的研究成果可以利用，而PSOLA技术则是比较新的技术，具有良好的发展前景。过去这两种技术基本上是互相独立发展的，

D. 多媒体技术应用的主要内容

1、数据压缩，图像处理的应用

多媒体计算机技术是面向三维图形、环绕立体声和彩色全屏幕运动画面的处理技术。数据压缩技术为图像、视频和音频信号的压缩，文件存储和分布式利用，提高通信干线的传输效率等应用提供了一个行之有效的方法，同时使计算机实时处理音频、视频信息，以保证播放出高质量的视频、音频节目成为可能。

2、音频信息处理的应用

在多媒体技术中，存储声音信息的文件格式主要有：WAV文件、VOC文件、MIDI文件、AIF文件、SON文件及RMI文件等。

3、音频信息录制编辑

把音乐和语音加到多媒体应用中，是我们研究音频处理技术的目的，下面是我们常用的音频信息录制编辑软件。

WaveEdit工具的REC命令；Sound Blaster卡的VEdit2软件；Microsoft SoundSystem卡的Quick Recorder软件；Cooledit软件；Wave Edit工具；Creative WaveStudio。

4、语音识别

语音的识别长久以来一直是人们的美好梦想，让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要目标。

随着计算机的普及、越来越多的人在使用计算机，如何给不熟悉计算机的人提供一个友好的人机交互手段，是人们感兴趣的问题，而语音识别技术就是其中最自然的一种交流手段。

5、数据库和基于内容检索的应用

多媒体信息检索技术的应用使多媒体信息检索系统、多媒体数据库，可视信息系统、多媒体信息自动获取和索引系统等应用逐渐变为现实。

基于内容的图像检索、文本检索系统己成为近年来多媒体信息检索领域中最为活跃的研究课题，基于内容的图像检索是根据其可视特征，从图像库中检索出与查询描述的图像内容相似的图像，利用图像可视特征索引，可以大大提高图像系统的检索能力。

E. 如何用fdpsola算法做语音合成

(a)原公式中m是0到N-1-k，当k=0时求和是从0到N-1，共有N个数据点。
(b)当m必须从1开始，k也必须从1开始，还是当(a)中的k=0时，现在变为k=1。如果按LZ所述m是1到N-k求和，则在k=1时是对m从1至N-1间求和，只有N-1个数据点。所以必须是N-k+1，才变成对N点求和。

F. 李晶的发表论文

Li Jing. The Data Warehouse Technology of DSS of Three Gorge Safe Monitor and Control System. The fifth International Conference on Distributed Computing and Applications for business, engineering and sciences （ DCABES2006 ）.2006,Hangzhou,China.(ISTP) ．三峡安全检测信息系统的知识库设计，计算机工程，2001 ．Sybase 数据库数据库系统并发控制的应用。武汉大学学报（工学版），1999 ．数据转移在PowerBuilder中的应用。计算机工程，1999。 .Li Jing , Song Zhao, Li Lingling, Li Juan, Tang Xiaoyue, Wan Juan. An Algorithm of Optimizing Subband Filter Banks Based on ACA, Proceedings of the 26th Chinese Control Conference July 26-31, 2007, Zhangjiajie, Hunan, China(EI,ISTP) .Li Jing, Li Lingling, Wan Juan, Xu Genhua ,Chen Fang. The Modeling Method for Non-intrusive Objective Speech Quality Measurement Based on Cloud Theory,Proceedings of the 26th Chinese Control Conference July 26-31, 2007, Zhangjiajie, Hunan, China (EI,ISTP) .Li Jing,Li Juan,Wan Juan,A novel Algorithm of VAD Based on AFSA and SVM,second International Symposium on Intelligence Computation and Applications,ISICA 2007(ISTP) .王锐,李晶.基于关联规则的Aprior算法的可视化实现方法 li Jing,Wan Juan,Li Lingling.A Novel Algorithm of Co-articulation Emotional Chinese Speech Synthesis Based on TD-PSOLA,DCABES 2008 Proceedings .Li Jing,Wan Juan,A Novel Audio Classification Algorithm Based on GA and SVM with Combined Kernel Function,DCABES 2009 Proceedings,2009 1．电力系统通信工程，武汉水利电力大学出版社，2000。（参编） 2．计算机导论，武汉大学出版社，2004。（参编） 3．新一代多媒体技术与应用，武汉大学出版社，2006。（主编）

G. 简述多媒体技术的主要应用。

多媒体技术通常的计算机应用系统可以处理文字、数据和图形等信息，而多媒体计算机除了处理以上的信息种类以外，还可以综合处理图像、声音、动画、视频等信息，开创了计算机应用的新纪元。

多媒体技术应用的意义在于：

1、使计算机可以处理人类生活中最直接、最普遍的信息，从而使得计算机应用领域及功能得到了极大的扩展。

2、使计算机系统的人机交互界面和手段更加友好和方便，非专业人员可以方便地使用和操作计算机。

3、多媒体技术使音像技术、计算机技术和通信技术三大信息处理技术紧密地结合起来，为信息处理技术发展奠定了新的基石。

多媒体技术发展已经有多年的历史了，到目前为止声音、视频、图像压缩方面的基础技术已逐步成熟，并形成了产品进入市场，热门的技术如模式识别、MPEG压缩技术、虚拟现实技术逐步走向成熟，相信不久也会进入市场。

(7)psola算法扩展阅读：

多媒体技术的特点：

1、能够完成在内容上相关联的多媒体信息的处理和传送，如声音、活动图像、文本、图形、动画等；

2、交互式工作，而不是简单的单向或双向传输；

3、网络联结，即各种媒体信息是通过网络传输的，而不是借助CD-ROM等存储载体来传递的。

H. 语音信号处理的作品目录

第1章绪论
第2章语音信号处理基础知识
2.1 语音和语言
2.2 汉语语音学
2.2.1 汉语语音的特点
2.2.2 汉语的拼音方法
2.2.3 汉语音节的一般结构
2.2.4 汉语声母的结构
2.2.5 汉语韵母的结构
2.2.6 声母和韵母的相互作用—音征互载
2.2.7 汉语的声调
2.3 语音生成系统和语音感知系统
2.3.1 语音发音系统
2.3.2 语音听觉系统
2.4 语音信号生成的数学模型
2.4.1 激励模型
2.4.2 声道模型
2.4.3 辐射模型
2.4.4 语音信号的数学模型
2.5 语音信号的特性分析
2.5.1 语音信号的时域波形和频谱特性
2.5.2 语音信号的语谱图
2.5.3 语音信号的统计特性
2.6 思考与复习题
第3章语音信号分析
3.1 概述
3.2 语音信号的数字化和预处理
3.2.1 预滤波、采样、A/D转换
3.2.2 预处理
3.3 语音信号的时域分析
3.3.1 短时能量及短时平均幅度分析
3.3.2 短时过零率分析
3.3.3 短时相关分析
3.3.4 短时平均幅度差函数
3.4 语音信号的频域分析
3.4.1 利用短时傅里叶变换求语音的短时谱
3.4.2 语音的短时谱的临界带特征矢量
3.5 语音信号的倒谱分析
3.5.1 同态信号处理的基本原理
3.5.2 复倒谱和倒谱
3.5.3 语音信号倒谱分析实例
3.6 语音信号的线性预测分析
3.6.1 线性预测分析的基本原理
3.6.2 线性预测方程组的求解
3.6.3 LPC谱估计和LPC复倒谱
3.6.4 线谱对分析
3.7 语音信号的小波分析
3.7.1 傅里叶变换
3.7.2 短时傅里叶变换
3.7.3 连续小波变换
3.7.4 离散小波变换
3.7.5 小波变换的几个实例
3.8 基音周期估计
3.8.1 自相关法
3.8.2 平均幅度差函数法
3.8.3 并行处理法
3.8.4 倒谱法
3.8.5 简化逆滤波法
3.8.6 小波变换法
3.8.7 基音检测的后处理
3.9 共振峰估计
3.9.1 带通滤波器组法
3.9.2 倒谱法
3.9.3 LPC法
3.10 思考与复习题
第4章矢量量化技术
4.1 概述
4.2 矢量量化的基本原理
4.3 矢量量化的失真测度
4.3.1 欧氏距离测度
4.3.2 线性预测失真测度
4.3.3 识别失真测度
4.4 矢量量化器的最佳码本设计
4.4.1 LBG算法
4.4.2 初始码本的生成
4.5 矢量量化技术的优化设计
4.6 思考与复习题
第5章隐马尔可夫模型
5.1 隐马尔可夫模型的引入
5.2 隐马尔可夫模型的定义
5.2.1 离散Markov过
5.2.2 隐Markov模型
5.2.3 HMM的基本元素
5.3 隐马尔可夫模型的基本算法
5.3.1 前向-后向算法
5.3.2 维特比算法
5.3.3 Baum-Welch算法
5.4 隐马尔可夫模型的各种结构类型
5.4.1 按照HMM的状态转移概率矩阵(A参数)分类
5.4.2 按照HMM的输出概率分布(B参数)分类
5.4.3 其他一些特殊的：HMM的形式
5.5 隐马尔可夫模型的一些实际问题
5.5.1 下溢问题
5.5.2 参数的初始化问题
5.5.3 提高HMM描述语音动态特性的能力
5.5.4 直接利用状态持续时间分布概率的HMM系统
5.6 思考与复习题
第6章人工神经网络初步
6.1 人工神经网络简介
6.2 人工神经网络的构成
6.2.1 神经元
6.2.2 神经元的学习算法
6.2.3 网络拓扑
6.2.4 网络的学习算法
6.3 几种用于模式识别的神经网络模型及其主要算法
6.3.1 单层感知器
6.3.2双层感知器
6.3.3 多层感知器
6.3.4 径向基函数神经网络的分类特性
6.3.5 自组织特征映射模型
6.3.6 时延神经网络
6.3.7 循环神经网络
6.3.8 支持向量机
6.4 用神经网络进行模式识别的典型做法
6.4.1 多输出型
6.4.2 单输出型
6.5 思考与复习题
第7章语音编码
7.1 概述
7.2 语音信号压缩编码的原理和压缩系统评价
7.2.1 语音压缩的基本原理
7.2.2 语音编码的关键技术
7.2.3 语音压缩系统的性能指标和评测方法
7.3 语音信号的波形编码
7.3.1 脉冲编码调制
7.3.2 自适应预测编码
7.3.3 自适应增量调制和自适应差分脉冲编码调制
7.3.4 子带编码
7.3.5 自适应变换编码
7.4 语音信号的参数编码
7.4.1 线性预测声码器
7.4.21P-10编码器
7.5 语音信号的混合编码
7.6 现代通信中的语音信号编码方法
7.6.1 EVRC算法基本原理
7.6.2 EVRC算法概述
7.7 思考与复习题
第8章语音合成
8.1 概述
8.2 共振峰合成法
8.3 线性预测合成法
8.4 语音合成专用硬件简介
8.5 PSOLA算法合成语音
8.6 文语转换系统
8.7 思考与复习题
第9章语音识别
9.1 概述
9.2 语音识别原理和识别系统的组成
9.2.1 预处理和参数分析
9.2.2 语音识别
9.2.3 语音识别系统的基本数据库
9.3 动态时间规整
9.4 孤立字(词)识别系统
9.4.1 基于MQDF的汉语塞音语音识别系统
9.4.2 基于概率尺度DP识别方法的孤立字(词)识别系统
9.5 连续语音识别系统
9.6 连续语音识别系统的性能评测
9.6.1 连续语音识别系统的评测方法以及系统复杂性和识别能力的测度
9.6.2 综合评估连续语音识别系统时需要考虑的其他因素
9.7 思考与复习题
第10章说话人识别与语种辨识
10.1 概述
10.2 说话人识别方法和系统结构
10.2.1 预处理
10.2.2 说话人识别特征的选取
10.2.3 特征参量评价方法
10.2.4模式匹配方法
10.2.5 说话人识别中判别方法和阈值的选择
10.2.6 说话人识别系统的评价
10.3 应用DTW的说话人确认系统
10.4 应用VQ的说话人识别系统
10.5 应用HMM的说话人识别系统
10.5.1 基于HMM的与文本有关的说话人识别
10.5.2 基于HMM的与文本无关的说话人识别
10.5.3 基于HMM的指定文本型说话人识别
10.5.4 说话人识别HMM的学习方法
10.5.5 鲁棒的HMM说话人识别技术
10.6 应用GMM的说话人识别系统
10.6.1 GMM模型的基本概念
10.6.2 GMM模型的参数估计
10.6.3 训练数据不充分的问题
10.6.4 GMM模型的识别问题
10.7 说话人识别中尚需进一步探索的研究课题
10.8 语种辨识的原理和应用
10.8.1 语种辨识的基本原理和方法
10.8.2 语种辨识的应用领域
10.9 思考与复习题
第11章语音转换与语音隐藏
11.1 语音转换的原理和应用
11.2 常用语音转换的方法
11.2.1 频谱特征参数转换
11.2.2 基音周期转换
11.2.3 韵律信息转换
11.3 语音分析模型和语音库的选择
11.3.1 语音分析模型
11.3.2 语音库的设计
11.4 应用CMM的语音转换
11.5 语音转换的研究方向
11.6 语音信息隐藏的原理及应用
11.7 语音信息隐藏的常用方法
11.8 语音信息隐藏系统的评价标准
11.9 语音信息隐藏需要研究和解决的问题
11.10 思考与复习题
第12章语音信号中的情感信息处理
12.1 概述
12.2 语音信号中的情感分类和情感特征分析
12.2.1 情感的分类
12.2.2情感特征分析
12.3 语音情感识别方法
12.3.1 主元分析法
12.3.2 神经网络方法
12.3.3 混合高斯模型法
12.4 情感语音的合成
12.5 今后的研究方向
12.6 思考与复习题
第13章耳语音信号处理
13.1 耳语音的声学特征分析
13.1.1 音长
13.1.2 音高
13.1.3 声调
13.1.4共振峰频率
13.1.5 耳语音美尔频率倒谱特征参数分析
13.2耳语音增强
13.3 耳语音转换正常音
13.4耳语音识别
13.4.1 孤立字(词)的耳语音识别
13.4.2 耳语音的说话人识别
13.5 耳语音的研究方向
13.6 思考与复习题
第14章语音增强
14.1 概述
14.2 语音特性、人耳感知特性及噪声特性
14.2.1 语音特性
14.2.2入耳感知特性
14.2.3 噪声特性
14.3 滤波法语音增强技术
14.3.1 陷波器法
14.3.2 自适应滤波器
14.4 利用相关特性的语音增强技术
14.4.1 自相关处理抗噪法语音增强技术
14.4.2 利用复数帧段主分量特征的降噪方法
14.5 非线性处理法语音增强技术
14.5.1 中心削波法
14.5.2 同态滤波法
14.6 减谱法语音增强技术
14.6.1 基本原理
14.6.2 基本减谱法的改进
14.7 利用Weiner滤波法的语音增强技术
14.7.1 基本原理
14.7.2 Weiner滤波的改进形式
14.8 思考与复习题
附录A 语音信号LPC美尔倒谱系数(LPCMCC)分析程序
附录B 利用HMM的孤立字(词)语音识别程序
附录C 汉英名词术语对照”
参考文献
……

阅读全文

热点内容

单独编译c文件发布：2025-03-23 07:28:20 浏览：402

gicv设置密码是多少发布：2025-03-23 06:48:59 浏览：838

不写数据库发布：2025-03-23 06:32:14 浏览：790

java阿里发布：2025-03-23 05:52:52 浏览：109

惠普服务器如何删掉raid 发布：2025-03-23 05:51:32 浏览：556

如何自学linux 发布：2025-03-23 05:50:10 浏览：843

安卓系统怎么删除短信发布：2025-03-23 05:40:44 浏览：118

c语言编译错误与崩溃发布：2025-03-23 05:34:13 浏览：591

uc浏览器视频缓存在哪里发布：2025-03-23 05:30:40 浏览：358

添加到收藏夹的脚本代码发布：2025-03-23 05:22:42 浏览：647

psola算法

与psola算法相关的资讯