哪款文字转语音合成器器比较好？

点击联系发帖人 时间：2016-04-19 09:36

wav语音合成器

当前位置： >
> 语音合成软件哪款好？就选小易语音朗读助手
语音合成软件哪款好？就选小易语音朗读助手
&&&&&&&语音合成技术可以将任意文字信息实时转化为标准流畅的语音朗读出来，也可以把自己的语音转换成其他语音。使用语音合成软件就能轻松合成个性语音，语音合成软件哪款好？就选小易语音朗读助手。　　“小易语音朗读助手” 是一款面向专业用户的语音产品，内置独创的中英文双语内核，可以同时设置中文语音角色、英文语音角色及各自的朗读语速。解决了使用单个语音角色不能兼顾多种语言朗读的问题，是真正的中英文混合朗读，这在中西方文化日益交融的今天，显得尤为重要。　　“小易语音朗读助手”还具备[播放，暂停，停止，快进，快退，重复]的超强朗读控制功能，能够随意选择从文章的何处开始朗读，并内置重复朗读功能，可以让你重复聆听某些关键内容，加深理解，因此，“小易语音朗读助手”不光可用于阅读新闻、小说等普通场合，更可适用于需要丰富控制功能的语言学习等复杂场合。　　除了将“小易语音朗读助手” 作为电子阅读器、学习机外，“小易语音朗读助手” 还支持将朗读内容转换成MP3输出，具备制作语音资料的功能。由于内置了上述的中英文双语内核，以及支持的大量第三方语音角色，“小易语音朗读助手”的语音朗读效果在同类软件中堪称翘楚，这使得生成的语音资料质量也非常好。
最新推荐文章不喵而来，拖拖拉拉一个月终于写完了。&br&做过一段时间的Vocaloid（音源主要是V3时代的洛天依、言和），长期追N站上的Vocaloid“拟真”调教，并且考过语音学（包括语音合成），大概能够满足介绍的条件了吧。Vocaloid的基本机理可能会在某些地方有问题（因为毕竟不是专攻V家音源的），但是在语音合成方面，是绝对不可能有问题的。&br&&br&常见的语音合成有三种机制：拼接、发声、共振。拼接合成非常容易理解，ab站的鬼畜作品、Vocaloid各代以及UTAU的合成都是拼接合成。发声合成需要模拟口腔的腔体大小，在科研中的确在应用，不过由于这一套系统在实体上太复杂（想想看要录音的话就得拉着一长条模拟口腔……），所以在一般民用领域的利用程度比较有限，我觉得以后可能在言语治疗和复健方面大有可为。共振合成则是把每个音的共振峰按照一定的峰值频率拼合起来，从而达到“合成”元音和辅音的效果；一般我们见到的TTS软件，包括霍金、谷歌娘，都是采用共振合成的。&br&从语音合成的机制来看，拼接合成的优点和缺点也都非常明显了：优点是可以利用现有的人声（也就是卖声优），给人一种“人”的亲切感，人声单个音节比较好控制，就音节来看说得比较像人，操作起来比较简单粗暴快捷有效；缺点是不管是音色还是元素都比较有限，并且由于是拼图式制作，在语流形成上会有点磕磕绊绊的。具体到唱歌的方面，拼接合成的问题更容易显现出来：显然，我们不可能把现有的人声每个音节在每个音高上按照每个发声方法都录制一遍，所以除了基础的语音以外，音高、音质、音效、长短必须都要由作者自行调控，而这个调控的“度”并不容易把握。&br&&br&从小的方面来说，音源单个发音的质量直接关系到拼接合成的质量。如果音源提供者在某方面发音有着比较明显的特征（或者含糊）的话，脱离完整的语流、单独拿出来以后，拼接合成的音源将明显地放大这些问题。如果有人听过刘婧荦本人在采访或者配音时的声音的话，就会发现她在普通话接近“h”的辅音的发音上并没有太明显的问题，但是由于音源采样时她本人的表现、音源处理以及脱离完整语流造成的辨识问题等一系列因素，最后在言和的音源里有个经典的老问题：如果不单独加上气流声，言和的“花”和“瓜”会分不清楚（b站有一系列作品都是围绕这个特征展开的）。如果音源本身质量有偏差，做出来的结果是肯定会有一定问题的。&br&拼接合成的最大问题在于，我们所拥有的音源音节数量是有限的，质量也是有限的，但是我们希望达到的效果是无限的——这点不是不能实现，但是调音师会很辛苦，对调音技术的要求也会非常高。V1和V2时代，由于采样的原因，音源本身听着就比较刺耳，调音的制成品自然很难变得柔和（这点和金坷垃的情况非常类似）。当然到了V3一代，音源的基本质量已经控制得很不错了，剩下需要克服的问题都不是能够单纯靠调整音源采样质量来完成的，而是需要靠调音师手工完成的。&br&说一个我知道的目前很难单纯靠软件计算来完成的任务吧：汉语音节长短的改变。平时说话要拖长声音的话，我们都知道，发声的时候是不可能把整个音节完全均匀地拉长的，而是尽量拉长韵腹（韵母里元音的部分），比如说拖长音的“双”，我们的发音就不可能是sshhuuaanngg，而是shuuaaaanng。但是用过Vocaloid的话就知道，音源库是不会把一个音节做出很多时长变化的，拉长一个音就只能靠硬抻，均匀拉长，如果要做到自然的长音的话，就得在编码的时候写成shu-aanngg，也就是说一个音节内部也需要拆成两个音节来处理。像“双”这样的音还好说，如果不幸要拖长的是诸如“风”、“红”这样的以eng或ong收尾的字，那就惨了：不管是洛天依还是言和，在声库里都没有单独录制的eng、ong的韵母，只能靠均匀拉长，总会觉得有点别扭（所以我当时调音玩的时候只能靠改歌词来拯救这惨淡的人生了）。如果是缩短音节的话呢，我们一般是均匀缩短的，尽量保证韵母完整，但是V3做出来的效果竟然类似于“截短”，为了保证声母的清晰度而强行压缩韵母，没错，如果是十六分长的“双”，在语流中一带而过，Vocaloid制成品的听感将不会是一个短的“双”，而是听着会像一个“书”，韵腹后半段和韵尾完全听不出来，具体效果可以参考《普通Disco》里面洛天依那句“让我看到你们的双手”，当时在b站看弹幕好多人说听着像“让我砍掉你们的猪手”我真是笑得不行……&br&&br&另一个问题在于，拼接合成的音源音节特征是相似的，也就是说，由于便于录制和后期调控，在一个声库里，音节的轻重、高低、时长是基本类似的。但是很显然真人平时说话唱歌都有轻重缓急、抑扬顿挫，所以这些“轻重缓急、抑扬顿挫”全都需要依靠手工操作完成。&br&这个事情说起来简单，做起来还是有点困难的，因为我们平时感受到的“重音”，实际上是多个参数的合成效果，被加上重音的音节，除了音量会变大以外，在音高（主要体现在说话时）、音长乃至元音的发音上都会有轻微的改变。如果要完全复原语流中的重音的话，这些参数需要进行系统的调整——我相信其实是能有一个系统的算法的，但是如果尝试过Vocaloid的调音的话，往往就会有那种“我都调了这么久了怎么还没调出来”的感觉……&br&所以为什么早期很多Vocaloid的歌，做得好的一般都有超出人类演唱特点的“惊人的中毒性”：比如wowaka各作品、《初音未来的消失》等；甚至一些歌曲到现在也都有这样的特征，比如《脑浆炸裂少女》和——我真的不是黑———《Kagerou Daze》的高潮部分。如果我们仔细分析音乐的节拍和歌词在调音上的特点的话，就会发现，“惊人的中毒性”是以牺牲“正常的歌声”作为代价，转而追求高速度、快节拍、短促咬字、无呼吸而成功的。而除了高速快节奏以外，早期的个别作品，比如甩葱、圆周率等，由于受到Vocaloid参数调整的限制，转而选择了非常机械化的方式来演唱，基本感觉不到什么特别丰富的感情表达，反倒也大获成功。这些成功的作品也同时从相反方向体现了Vocaloid的不足：低速慢拍、长音、特别的重音、装饰音、呼吸停顿、气音，都是拼接合成的弱势之处。如果对照翻唱的话，就可以感觉到翻唱是不具备中毒性里那种字字铿锵有力的特点的，这也正好说明人在气息和强弱转变上是优于Vocaloid的。当然现在至少在气音呼吸这方面有了很大的长进了，参见梅绅士的《威风堂堂》，开头那段做得真是很真实啊。&br&这里顺带提一下演唱特征的问题。Vocaloid毕竟不是人，所以在演唱的时候也会丧失人的灵活度，一个最为典型的代表，就是Lia和她的V3制成品IA的区别——Lia在唱歌的时候会带有一些随机出现的特征，比如ga行鼻浊化（ga发成近似于nga的音）、句尾清音明显送气，这让她的发音听起来很像演歌歌手，但是她的制成品IA显然没有这种特征。如果对这些演唱细节感兴趣的话，可以对比一下她本人和各个IA的调音师对阳炎的片尾曲《Days》的处理（因为这是我为数不多的背过歌词并且能明显听出区别的歌）。&br&&br&第三个问题是，Vocaloid的高音处理和我们普通人的高音不一样。唱过或者试图唱过高音的都知道，到了一定音高以后，一般会有两种结局：第一种是真声破音，感觉像是大叫，体现为《死了都要爱》那种喊着唱完的方式；另一种则是转成假声，极端的话变成Vitas那种海豚音。真声破音的效果，我目前没听过Vocaloid的制成品，总觉得要做出来会很猎奇——想想言和唱“死了都要爱”就一身鸡皮疙瘩。假声和真声的发音方式完全不同，一听就能听出来，就算我们可以说一个歌手“真假声切换很流畅”，也是在他唱歌区分真声假声的基础上评价的。&br&但是Vocaloid完全不一样：它的高音是以真声为基础，在此之上再进行变调完成的（为了保证音色稳定，应该是基音泛音一起变，运算会比鬼畜作品里的周波变调还要复杂一点，扭曲感也少一点）。即使这种声音听起来非常尖锐非常高，但依然是采取的“真声的发音方式”。这让Vocaloid的高音穿透力非常强、效果异常好，并且很难模仿——因为正常人很难发出那么高的真声——也就听起来更“非人”了一些。如果有兴趣的话可以听听《自伤无色》，那首歌的音域差异简直是非人的，但是原作听起来感觉完全都是真声演唱，然后翻唱者就比较无语了。我记得b站还有一个投稿是用洛天依翻唱《歌剧2》，我对那首歌的评价是海豚音副歌的部分能甩常规主歌的部分一百条中关村北大街……&br&&br&最后，就“感情”来说，现在的V2几个音源都已经重制了“带感情”的版本，比如镜音铃/连的Rock版、Warm版等，就我这副狗耳来听，主要是在音源的音色上有了改变，也就是说，“做得更符合个别类型的曲目”。这方面可以对比《对二氯苯》、《Jabberwocky·Jabberwocka》和《东京车站》三首歌，分别对应普通版、Rock版、Warm版，相比之下Rock版的声音更“利落”，重音和节奏感更突出，Warm版则更为柔和，在音节过渡上更平稳，当然这里面肯定有调音师自己的调试，但是音源的差别是能听出来的。&br&不过，如果真的要说实实在在的“感情”，比如说“哭”的感觉、“笑”的感觉、嘶哑和颤音，我认为目前这个阶段Vocaloid还是做不出来类似效果的，因为“哭”和“笑”的表情实现的时候，受到面部表情、肌肉活动的影响，口腔鼻腔腔体内部可能会有细微的变化区别，导致发音也会有系统性的差异。这点在“哭”的时候可能更明显，比如哭音的鼻音会更重、喉部发声会更复杂（有一种抽噎的感觉，气音和爆发会更明显），如果单纯靠V3的参数很难实现。n站的regulus做哭音的调音相对比较多，但是他的作品与其说是哭音，还不如说是用高音加上模糊来制造出一种“听不清歌词”的感觉，我个人感觉还是比较勉强的。&br&&br&还有几个小问题，有些是我心里有数但是感觉放在正文里没啥太大用处的，还有一些则是因为老久没调音已经没感觉的：&br&1.不管是第几代的Vocaloid，在滑音这方面的完成度都有些奇怪，如果是要特别做出来滑音的效果的话，总会感觉“太滑了”，当然也有人因为这种特别的滑音而出名的，比如梅绅士，四字熟语系列的bridge段落念白都是以这种滑音为主；&br&2.汉语的音调其实有着相对音调的特征（后一个字的音高基于前一个字的音高），早期说话调音的时候很多人试图用绝对音调，因此也就有了那种“一个字是一个字连不起来”的感觉；&br&3.有些时候调音师起到的作用比音源大多了，哪怕是同一个音源同一个调音师，状态不对就是状态不对，闭上眼睛听《离去之原》跟《小夜子》（或者《四十七》），我反正第一次没听出来是同一个人调的，这辈子最大愿望就是希望mikito能把《离去之原》重制一下；&br&4.当然，不同音源库对于不同音节的表现力也是有差异的，有些音源在语音上有明显的强项，比如V3的汉语两个库，言和在儿化音的方面比洛天依自然很多（我怀疑这个差异和山新与刘婧荦本身的语音习惯有关系），如果对儿化音的生成有足够了解的话，言和能调出一口北京西城腔，但是洛天依就只有南方人努力卷舌头的感觉；&br&5.如果录过干声的话就会知道，实际唱歌的时候人声会抖，而且是很明显的那种抖，哪怕是“在一个调上”，也会有波动，所以Vocaloid的“机械防抖”反而让声音变得不太真实了，这么说吧，用耳机听的时候，很多人的干声会有种惨不忍闻的感觉（包括我自己），但是Vocaloid的干声是能正常听着感觉不难受的；&br&6.想到再补。
不喵而来，拖拖拉拉一个月终于写完了。做过一段时间的Vocaloid（音源主要是V3时代的洛天依、言和），长期追N站上的Vocaloid“拟真”调教，并且考过语音学（包括语音合成），大概能够满足介绍的条件了吧。Vocaloid的基本机理可能会在某些地方有问题（因为毕…
细节区别有很多方面。&br&&br&从原理上说，vocaloid就算是初代也是比10086的还是好了很多的。10086数字那些不协调的只是纯粹的直接连接声波（当然跟中文音调也有关），中间稍有空隙（停顿）减少了一些不适感，但结果就是彻底一字一顿声音了。而vocaloid处理了音节之间口型变化的发音（上一个的尾和下一个的头），是可以以自然的口型连起来唱歌的。&br&&br&要问合成出来为啥不自然，就得说到怎么合成……怎么合成也就跟怎么录制声库有关，简单的说就是录制“所有”发音组合。这个单位可大可小，并不是不懂的人以为的“每个词每句话”，相反甚至会把一个音节拆开。细到V2日语就是CV+VC的录音制式（据说有部分VCV），比如“渣渣”用日语zya zya两个音节，比如张开口型作为一个过程，收口型也作为一个过程，合成的时候就是[dZ a][a dZ][dZ a][a -]这些块（里面是奇怪的音标），a跟a靠起来的地方是元音混合（混合技术是很复杂的）两个dZ是辅音结尾与辅音开头的一个连接处（这里也有很多细节，都是音频程序猴的事了）。于是要请声优来录制很多很多这种拆开的块。&br&&br&插一句，初音ミク是vocaloid第二代的首个声库，中间已有几十个声库，现在到了四代，所以比那时候还是有很多提高的（至于这些优化在哪了……这个真说不完，我也不是内部人员【）。之前老的技术在处理连接部位的时候某些计算方法细节（此处@猴子）不太对，出来的声音也可能有问题。&br&比较新的声库，多数还是比较自然（此处自然指绝对的正常无bug，下面说另一种）了，但是还是可能由于录制的时候，某个连接处前后连接的地方，声优发声状态有些区别了（人总会有发声器官状态波动），那么合成放在一起就可能感觉奇怪。&br&&br&至于你也有可能提到的另一种“不自然”，或者说“没感情”……上面也说了要录制所有组合，因为所有组合可能以任意方式连接在一起，如果两个不一样在一起不太对那么就囧了，所以录制发音是要尽量保证&b&风格一致&/b&的（V4有一个声库不同感觉发音的混用了，就是内置多套声音，单个一套内也得保持一致）。&br&vocaloid本身如果写好音调、直接填个词，啥都不动就播放（所谓“无参数”）的话，是每一个音都由变调器准确平坦地变到规定的调上，中间稍有默认的音调转换（默认设置下长音符会自动在尾部添加一段颤音）（内部还会有一些跨音符的音色稳定处理，这个我还不知道细节但是知道有）。&br&&br&于是，真人唱歌会有一些&b&滑音、颤音、滑音、音色变化、气息变化、音量变化、停顿长度变化、元音辅音长度占比变化、口型开合速度变化、提前滞后&/b&等等等等各种变化，且很多变化是歌曲本身表达感情要求的。【←本回答的重点就都在这一句了&br&vocaloid的调教，也就是对录制好的声波进行各种变化，去模仿有感情的唱法的那些变化。如果不调，也就是所谓“毫无感情”，即把每一个音发出来并且准确地在调上，各种（引用上面的粗体）都很统一，如此而已。没感情的歌曲大概也没人听得惯？&br&要更自然，也就是要模仿各个方面的变化，要用对应参数去调整。在这里也会出现问题，调对了更自然更出彩，调错了发音也就会更抽风。&br&&br&再细到细节得对着波形才能说明白了……&br&【可能更新，看题主还需要哪些细节
细节区别有很多方面。从原理上说，vocaloid就算是初代也是比10086的还是好了很多的。10086数字那些不协调的只是纯粹的直接连接声波（当然跟中文音调也有关），中间稍有空隙（停顿）减少了一些不适感，但结果就是彻底一字一顿声音了。而vocaloid处理了音节之…
虽然这个问题提出很久了，不过由于没看到比较合适的答案，我在此简略补充。可以参考Simon King的A Beginners' Guide to Statistical Parametric Speech Synthesis，一篇零基础的入门类文章；关于基于HMM的语音合成在近年的发展、以及范围更广的介绍，可参考Keiichi Tokuda, et al. Speech Synthesis Based on Hidden Markov Models.&br&首先这属于一种统计参数语音合成方法。“参数”指语音特征由一系列随时间变化的参数表示，例如共振峰模型中每个共振峰的频率，或者是一串MFCC特征向量，或者HNM模型中各个谐波的幅度等等。给定这些参数即可合成语音。“统计”指这些参数由统计模型生成，而不是直接从训练数据中获得（如拼接合成）。&br&按照这个定义，统计参数语音合成不一定必须使用HMM，但HMM是最为主流的模型。这得益于之前HMM在语音识别领域的广泛应用。如 &a data-title=&@acel rovsion& data-editable=&true& class=&member_mention& href=&///people/fff01f5aadbddf& data-hash=&fff01f5aadbddf& data-tip=&p$b$fff01f5aadbddf&&@acel rovsion&/a& 的回答，在语音识别中，语音特征作为观察结果，音素作为隐藏状态。如何建立隐藏状态到观察结果的联系？一组观察概率函数决定了从各个状态观察出某一特定参数的概率。这个观察概率函数可以是离散的（DHMM），也可以是连续的（CDHMM），例如高斯分布——实际应用中每个观察都是一个N维向量，那么就需要用N维的高斯分布了。围绕HMM有一系列常用的算法，比如给定模型和观察，Forward算法可以计算从模型观察出特定序列的概率；Viterbi算法可以计算最有可能的内部状态；Baum-Welch算法可以用于训练HMM。当我们有足够的训练数据，用Baum-Welch算出HMM的状态转移概率和观察概率函数，然后就可以用Viterbi算法求出每一句输入的语音背后最有可能的音素序列。实际上还要稍微复杂一点——因为数据量有限，往往我们会先训练一些比较小的HMM用于识别各个单音子（monophone），或者三音子（triphone），然后把这些小HMM串起来就能识别连续语音（李开复当年的博士研究就是做这个的）。&br&回到语音合成。其实无非就是把HMM在语音识别中的用法倒过来——&b&给定一串音素，去数据库里找出最符合这串音素的一堆小HMM，把它们串成一个较长的HMM，代表整个句子。然后根据这个组合出的HMM，计算最有可能观察出的语音参数序列&/b&，剩下的就是从参数序列生成语音了。这是对完整过程的简化，最主要的问题在于，这样生成的语音参数是不连续的，因为HMM的状态是离散的。为了解决这个问题，Keiichi Tokuda借鉴语音识别中广泛使用的动态参数（参数的一阶和二阶导数），将其引入语音合成的参数生成中，使生成语音的连贯性有了大幅提高。&br&&br&以上是一个基本框架，省略的一些重要话题，例如基频与时长建模、基于决策树的上下文相关模型选择、与拼接合成的异同比较，可在开头提到的文献中找到。
虽然这个问题提出很久了，不过由于没看到比较合适的答案，我在此简略补充。可以参考Simon King的A Beginners' Guide to Statistical Parametric Speech Synthesis，一篇零基础的入门类文章；关于基于HMM的语音合成在近年的发展、以及范围更广的介绍，可参考…
首先，谢谢要求。不过这个问题有点大，我就随便聊一些吧。&br&从新千年语音识别开始成为热点的时候，一个基本的知道思路：统计模型识别。&br&那么一般统计模型识别包括以下三个部分（其实大部分人都知道，我在这里普及一下，一会好说明）：&br&第一，语音提取。&br&
在一定时间段的波形中提取与时间相关的语音特征序列。&br&第二，识别算法（声学模型与匹配）。&br&
通过匹配算法求最优。&br&第三，语音模型与语意处理。&br&前者一般是语音命令构成的指令网或者一套统计模型。&br&后者一般是一套分析模型，用作语法和语义分析。&br&&br&那么现在的语义识别乎要是dtw＋模拟匹配和题主提到的hmm（隐马尔科夫模型）&br&前者很简单：直接提取特征值建立模板，在进行模板匹配，为了增加准确率可以增加词条库或者小词表。这种类型的识别对于孤立词识别较高且运算少。&br&&b&&u&而隐马尔科夫模型：来自rabiner在80年代引入，是对于大量既有语音数据作出统计模型，通过列识别条的方法来构建统计模型，在根据提取到的特征值，进行“模型匹配”。通过建立一种评分机制（比如设置特征匹配度）来选取最优结果。因为大量语音数据建立的稳定统计模型，所以此方法的准确率较为提升。&/u&&/b&&br&这种方法的缺点就在于需要大量时间来建立语音库，并且对sram的dsp有一定容量要求。&br&&br&&b&&i&&u&关于其应用&/u&&/i&&/b&：&br&现在unispeech chip上实现dhmm，再在同一平台上设置chmm。&br&第一阶段：前端处理：包括语音采样，a/d变化，分帧，特片提取，端点检测。特征提取基于语音帧，一帧提取一个语音特片。&br&&br&&br&第二阶段：&img src=&/97ecd7acc5df7c71bccc6fed849d5b85_b.jpg& data-rawwidth=&571& data-rawheight=&467& class=&origin_image zh-lightbox-thumb& width=&571& data-original=&/97ecd7acc5df7c71bccc6fed849d5b85_r.jpg&&&br&另外还有一种是神经网络模型，这里就不赘述了
首先，谢谢要求。不过这个问题有点大，我就随便聊一些吧。从新千年语音识别开始成为热点的时候，一个基本的知道思路：统计模型识别。那么一般统计模型识别包括以下三个部分（其实大部分人都知道，我在这里普及一下，一会好说明）：第一，语音提取。在一定…
首先谢题主邀。其实我看到这个邀请是诚惶诚恐的，因为自己在这里没有什么干货可讲，还请各位见谅。&br&&br&我注意到题主打上了“逆向工程”的标签，首先希望题主不要去做任何侵犯知识产权的事（虽然逆向工程不一定是侵权的，比如符合“合理使用”的），尤其是试图对 VOCALOID 进行拆解研究。因为 VOCALOID 产品的许可协议书[1]明文指出：&br&&blockquote&用户不得以任何方式对EDITOR及LIBRARY进行反编译、拆卸、逆向工程或者其他途径获取源代码，并不得全部或部分复制、修改、改变、租赁、出租或者经销EDITOR及LIBRARY，或者制作衍生产品。&br&&/blockquote&&br&此外，VOCALOID 在包括日本、美国在内的多个国家受专利保护，在中国也是如此（CNC、CNC）。侵犯知识产权不仅是非法的，而且是令人所不齿的。&br&&br&Rocaloid 在前期开发过程中一直是侵权的（试图在破解其格式的基础上分解 VOCALOID 的数据库，并重新组合），后期不但有了自己的引擎、UI，好像还有了自己的数据库格式，而且也开发出了能让 UTAU 使用该引擎的接口，我没有持续关注这个项目，所以对现在他们的进展不是很了解。但是作者一开始是打着实现让 Miku 能演唱中文的梦想的旗号开发的，作者的爱、决心和毅力，以及强大的学习能力固然是令人敬佩的，但选择了一个错误的方向实在可惜。&br&&br&我想说的第二点是希望题主多参考和学习前人的成果，而不是在这里猜测、脑补和当伸手党。（我曾因此被人骂得狗血喷头。）题主提到的一些参数在 iVocaloid 论坛和 Vocaloid Wiki 等处都有很多对于原理的猜测，UTAU 也对其中一些进行了模仿实现，这些都是很好的学习材料。关于语音合成、信号处理等，有很多专著、专利、论文（据说 VOCALOID 也有论文，但是没有被找出来）可读，也有如 HTS（基于 HMM 的语音合成系统，CeVIO 便是基于此，另一个由此项目衍生的“产品”是Sinsy）等发展多年的开源项目。&b&这些很多都是合法而且能免费取得的，题主没有必要去冒侵犯版权的风险。&/b&&br&&br&其实题主与其去发明一套新的合成系统，不如去了解已有的系统，再对其改进或移植。比如著名的开源语音学软件 Praat 中有一个质量比较好的 OLA 合成引擎，我利用它的脚本功能和命令行界面，使用 C++（现在改为 Python 了）把它封装成了一个适合 UTAU 使用的引擎，在对一些录制效果比较好的采样进行合成时有锦上添花的效果，还是相当令我满意的。&br&&br&鉴于达成这一目标需要攀登许多学科的高峰（除容易想到的语音学、信号处理和一些程序设计知识外，题主提到的话题应该还包括软件工程、统计学等），而且其中一些甚至是科班研究人员研究多年都难以解决的问题。我作为一个精力有限的渣渣，已经知难而退了。最后祝楼主好运。先写这么多了，如有疏漏，还请不吝指教。&br&&br&[1] 来自零售版洛天依的安装程序，内容与其他 VOCALOID 产品的授权许可基本一致，应该是自日文原文翻译而来。&br&&br&-----&br&更新一下，想再说几句。乐器声音的合成和人声合成还是有很多差别的，希望题主不要把其中的差距想得过于简单。在如今存储空间飞速增长的时代，乐器音源几乎已经走上了堆叠采样的不归路，这样也确实能有非常好的效果。但人声的多变性（语音学上的、发声方法上的等等）和“采样对象是人”决定了穷举所有可能的组合（比如像钢琴音源把 88 个键分不同力度级都录一遍）是不现实且不可能的，所以如何在简化录音过程和获得好的效果之间取舍是一个非常重要的一点。（而语音合成[speech synthesis]由于要面对很多嵌入式设备还必须压缩到一个非常小的体积。）合成人声时还必须考虑如何在伸缩和变调后还能维持语音特性（比如共振峰，因为例如在升高音调之后共振峰也会整体上移，出现如 VOCALOID 中 GEN 升高一般的效果）。题主可以参考 UTAU 作者的演讲稿做一个初步的了解，翻译版：&a class=& wrap external& href=&///?target=http%3A///s/iX2rtFjQI7td& target=&_blank& rel=&nofollow noreferrer&&utau演讲_中文R1.pdf。&i class=&icon-external&&&/i&&/a&还有如何去管理采样，虽然没有 text-to-speech 那样需要考虑多音字之类的问题，但是也要考虑如何把音素连接成音节，如何把音节连接成词，如何连词成句，还要考虑语音（可能比音素更小）由于前后文的影响发生的变化等等，这些恐怕要建立在一定量的统计分析之上。至于语音合成质量，是有评分方法的，叫做 MOS(Mean Opinion Score)。
首先谢题主邀。其实我看到这个邀请是诚惶诚恐的，因为自己在这里没有什么干货可讲，还请各位见谅。我注意到题主打上了“逆向工程”的标签，首先希望题主不要去做任何侵犯知识产权的事（虽然逆向工程不一定是侵权的，比如符合“合理使用”的），尤其是试图对…
谢邀，我懂的有限。。尽量逐一解答：&br&&br&2.声源需要录制哪些？录完需要如何处理？需要录哪些？&br&&br&我不知道你做不做音乐，如果做音乐的话，下载或者购买一个EWQL Symphonic Choirs Voices的&br&kontakt版本，基本是用很原始的纯暴力方法进行“语音合成”。。。。基本可以算是语音合成吧，&br&看看它都录了哪些素材，你就知道你该录哪些了。&br&&br&3.需要学习哪些相关的语言学的知识？&br&&br&这个真不知道，如果你知道了请麻烦告诉我让我也学习一下。。。。&br&&br&4.目前有哪些成熟的音素拼接算法与语音合成建模？&br&&br&sound morph，很高大上，但是我偷偷告诉你其实非常多的产品，&br&算法其实就是直接Xfade。&br&&br&5.如何编辑波形实现变速和变调？&br&&br&最简单的就是Phase Vocoder。&br&&br&7.有没有一个量化的歌声合成质量的评价指标？&br&&br&这个真没有。&br&&br&8.如果想通过破解以前的软件来研究合成算法，需要学习哪些比如逆向工程、反汇编之类的知识？&br&&br&非常非常困难，简单的滤波器不看反汇编也能猜出来，复杂的算法反汇编了加上注释给你看&br&也看不懂，比如，某些参数在程序里定死了，但其实都是公式推导出来的，但对你来说这些参数&br&在汇编里都是magic number，基本无从下手。如果只是把汇编语句抠出来用还多少有点可能，&br&想用汇编语句推音频算法太难了。&br&&br&9.预先编写哪些开发工具会提高开发效率？&br&&br&最最起码要有方便地经行音频分析（频谱，电平等等），以及音频编辑功能的工具，但是&br&我不觉得需要自己写，wavelab就是很好的工具，音频开发还是C、C++用得多，但是debug&br&很麻烦，浮点计算靠耳朵听对错不大靠谱，我以前写过matlab与宿主之间的插件桥，直接matlab&br&写试验算法然后宿主出声，挺方便，不知道现在有没有现成的工具。&br&&br&“10.编写插件需要学习什么？”&br&&br&你说的是音频效果器、合成器插件吗？如果是的话，首先当然是大名鼎鼎的juce：&br&&br&&a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&JUCE Cross-Platform C++ Library&i class=&icon-external&&&/i&&/a&&br&它包含了完整的GUI框架以及其他必要的功能，但是最难能可贵的是它包含了vst，au，rtas，AAX&br&等等几乎所有效果器插件的warpper，一次开发可以生成所有这些插件格式，同时跨平台，跨32、64位。&br&&br&juce相对来说，缺少DSP相关的内容，我也一直想找好的DSP库，但是高质量且针对音频的&br&DSP库不多，intel ipp是个不错的选择，我现在就在用，可惜要花钱。然后还有：&br&&br&SP++：国人开发的库，实现了非常多的常见的DSP算法，各种变换，滤波等等，我用的不多，感觉学术性大于工程性。&br&&a href=&///?target=http%3A//aquila-dsp.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Aquila - a C++ library for digital signal processing&i class=&icon-external&&&/i&&/a&：也是DSP库，用过一段时间，后来换了intel ipp了。&br&&a href=&///?target=https%3A///vinniefalco/DSPFilters& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&vinniefalco/DSPFilters · GitHub&i class=&icon-external&&&/i&&/a&：滤波器库，全是各种IIR滤波器算法，演示例子写的很不错，&br&对于一个DSP库来说其对模板的使用简直丧心病狂。&br&还有就是大名鼎鼎的“Audio EQ cookbook”,简直火编音频界的大江南北。。。&br&&br&然后怎能忘了入门经典 &a href=&///?target=http%3A//musicdsp.org/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&musicdsp.org/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& ，介绍了大多数常见的音频效果器算法，虽然&br&大多数比较初级但都是很好的例子。&br&&br&然后是这个： &a href=&///?target=https%3A//ccrma.stanford.edu/%7Ejos/resample/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Digital Audio Resampling Home Page&i class=&icon-external&&&/i&&/a&，你想问的它基本全都写了。&br&&br&再然后： &a href=&///?target=http%3A//www./SRC/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Secret Rabbit Code (aka libsamplerate)&i class=&icon-external&&&/i&&/a& ：很经典的，适合音频的resample库，开源，&br&代码很值得学习。&br&&br&再再然后：&a href=&///?target=http%3A///forum/viewforum.php%3Ff%3D33& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&KVR:
View forum&i class=&icon-external&&&/i&&/a&　大名鼎鼎的ＫＶＲ论坛上的ＤＳＰ板块，很多高手都在。&br&&br&再再再然后：超级著名的&a href=&///?target=http%3A//www2.hsu-hh.de/ant/dafx2002/DAFX_Book_Page_2nd_edition/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&DAFX - Digital Audio Effects&i class=&icon-external&&&/i&&/a&，不知道这书出到第几版了，也不知道&br&有没有电子版，但是一定要看。代购也要看。&br&&br&然后还有一堆通用的比如FFTW之类的就不一一细说了。&br&&br&最后，关于第一个问题：&br&&br&1.看到很多语音建模，都是基于波形。但是wav文件是如何将波形信息转化成数据的？如何通过编程直接编辑wav文件的波形图或者频率分布图？&br&&br&抱歉没看明白问题的描述。。。。&br&&br&6.各大参数如何实现？&br&（1）BRI声音宏亮程度（据说是通过EQ 3khz-6khz的频率实现的）有没有有关声学人声宏亮程度的文献？&br&（2）BRE声音沙哑程度（据说是通过抖动。。不懂）&br&（3）OPE开口（嘴型）大小&br&（4）GEN性别因子（据说和共振峰有关）&br&（5）PIT（这个应该和变调是一个问题？）&br&（6）CEVIO中的情感因素如何和波形变换关联？（cevio中应该是通过研究后的很多参数拼成了愤怒、活力和哀伤三个感情参数）&br&&br&这个问题说大了就太大了，从1到6，可以说你括号里写的就是答案，也可以说你括号里&br&写的都不对，给你举个例子，拿1来说，一个本来就洪亮的声音提高点3k，确实可能变得&br&更洪亮一点，但是一个情绪很低落的原始素材怎么提3k也洪亮不了。再比如说性别因子，&br&要“像”的前提是原始素材本身就要带有女性的气质，或者故意模仿女性，这几个带来的变化&br&只能锦上添花，想从一个人声变成任何感觉的其他人声仅仅靠他们是不可能的。&br&搜搜voice modeling，或者看看&a href=&///?target=http%3A///products/detail.php%3Fproduct%3DTHROAT_Evo_14& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Antares Vocal Processing&i class=&icon-external&&&/i&&/a&的相关技术，我不知道它具体是&br&怎么实现的，但是你可以下一个试试，Antares也算是行业前沿水平，但真的蛮假的。。。&br&&br&//--------------------------------------------------------&br&&br&另外呢，我想多说几句，我不知道你想实现的目标有多宏大，但vocaloid这类东西，真没有&br&多高的技术，利用现有的声音处理手段和工具，一点算法不懂一行代码不写也可能做出类似的，&br&说到底还是个基于采样的语音合成。你问的这些问题，其实想的有点复杂化了。
谢邀，我懂的有限。。尽量逐一解答：2.声源需要录制哪些？录完需要如何处理？需要录哪些？我不知道你做不做音乐，如果做音乐的话，下载或者购买一个EWQL Symphonic Choirs Voices的kontakt版本，基本是用很原始的纯暴力方法进行“语音合成”。。。。基本可…
miku发音太标准了。正常说话的时候有些音是含混不清的带过去的，而音库的发音则是所有长度的音都极其清楚的发出来。在听快歌的时候非常明显，有的已经突破人类发音极限了，产生了非人类的感觉。不过很多人喜欢这种风格。&br&&br&另外就是看调教。v引擎默认的调教就是各个音之间自动带一点滑音，然后长音节自动颤音。那是一种很单调的唱法，没有人类音调上的变化，完全的读程序。所以如果不经过很好的调教的话也是很不自然的。&br&&br&还有一点就是音色的原因。miku和rin这种很容易调出喜人的效果，但是不是很接近人类。meiko是最难调的，音色尖锐，而且发音好像有一点问题。gumi缺省调教的状态就已经和人类很相似了。kaito和茄子调的好可以很神，调的不好没法听。此外个人感觉U家比V家神调教多，可能是因为音库多竞争激烈。歌幡和獸音基本量产神调教。&br&&br&个人觉得音与音之间的连接倒不是很大的问题。这个可以对比U家的单独音和连续音。虽然多数连续音效果确实好的不行，但单独音也是有很多神调教的。&br&&br&题主可以去听听这个，已经很接近人类了&br&&a href=&///?target=http%3A///video/av828093/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&【月代はくぽ】界外科學【Utau】&i class=&icon-external&&&/i&&/a&
miku发音太标准了。正常说话的时候有些音是含混不清的带过去的，而音库的发音则是所有长度的音都极其清楚的发出来。在听快歌的时候非常明显，有的已经突破人类发音极限了，产生了非人类的感觉。不过很多人喜欢这种风格。另外就是看调教。v引擎默认的调教就…
&a href=&///?target=http%3A///video/2042245& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&【MV】音乐短片影视原声 -The Dragon's Daughter (Game of Thrones Tribute Remix)-高清MV在线播放&i class=&icon-external&&&/i&&/a&
受邀了嚎可怕，手机不好打多。&br&&br&坑很大，尤其你还不知道声音是如何存储的话……&br&声音是振动，振动是各个时刻振子位置在变，wav波形记录的就是各个时刻位置，采样率就是每秒多少（44100常用）个点，位数就是每个点位置多少（16常用）位二进制记录，全连成一坨，加一些文件头，这就是最基础的波形文件……&br&&br&语音学方面把自己的嘴拆掉在各个部件上加上传感器然后再装回去就差不多了（然后我现在就说话都不太对了（误&br&&br&接下来高端的东西要数学技术、计算机技术和脑洞水平（还有耳朵的驱动程序要升级），这里是远远说不完的。&br&&br&另，最好是先把已有的用熟，成为一个调教湿（&广告&金坷垃是一个不错的练手工具&/广告&），对现在有哪些技术了如指掌，才能进一步探索现在缺哪些技术，然后开启新脑洞与新大门。&br&&br&---&br&更新：&br&才发现题主（看上去）是妹子啊，妹子嘛其实只要来录音库就好了自己写多麻烦呀（掌握那2号子问题即可（（（（
受邀了嚎可怕，手机不好打多。坑很大，尤其你还不知道声音是如何存储的话……声音是振动，振动是各个时刻振子位置在变，wav波形记录的就是各个时刻位置，采样率就是每秒多少（44100常用）个点，位数就是每个点位置多少（16常用）位二进制记录，全连成一坨，…
已有帐号？
无法登录？
社交帐号登录}

51无线网