当前位置:中国站长下载文章中心网页编程.NET编程 → 在ASP.NET程序中实现语音合成(2)

在ASP.NET程序中实现语音合成(2)

减小字体 增大字体 作者:不详  来源:不详  发布时间:2006-8-14 8:50:39
     二、 微软语音应用程序开发包SDK 1.1
  
    在2004年,微软发行了 Microsoft Speech Server,还有一个免费的SDK允许你开发基于Web的运行于Speech Server上的语音程序。可以使用SDK来构建电话或只发声的应用程序-其中的计算机对用户的交互是使用电话来实现的。同时你还可以构建多模态应用程序,其中由用户选择使用语音还是传统型Web控件作为输入。
  
    微软TTS引擎通过把单词拆分成音素来合成文本。音素是人类语言的基本单位。它们代表一组"音",正是由它们构成单词的声音。然后由该TTS引擎分析提取的音素并且把它们转换成符号用来生成数字音频语音。
  
    你可以使用随同本文的可下载的示例应用程序(ExploringTextToSpeech.csproj)来试验微软TTS引擎可配置的方面。该多模态应用程序包含一个Web页面(见图2),你可以在其中输入一些文本。然后,可以点击一个按钮来以下面方式听取文本。
  
    作者注:在要被播放的文本无法提前知道的情况下,使用一TTS引擎是不可避免的;然而,你可以由录制音频来得到更好的音质。当音频质量是关键的时,你可以使用微软语音应用程序软件开发工具箱(SASDK)来录制音频。例如,你可能想使用录制的音频来提示用户信息。被记录的音频可以被分解成一系列的提示,它们在运行时刻再被连接起来。
  
    · Speak Text Normally-提供一种测试基准
  
    · Say as an Acronym-文本"ASP"被发作"A.S.P."
  
    · Say as Name-Mr.John Doe被发作"Mister John Doe"
  
    · Say As Date-在这种情况中,日期格式化为:月,日,年
  
    · Say as Web Address-在这种情况中,文本格式化为一个统一资源标识符(URI)
  
    · Say as Digits-作为文本输入的数字被发作一系列的位
  
    · High Pitch/Slow Rate-文本以高音调慢速发出。
  
    · Rate Fast/Volume Loud-文本以快速高音发出。
  
    · Low Pitch/Volume Soft-文本以低音调适中音量发出。
  
  
  图2.示例应用程序-你可以使用这个程序来听一下以多种方式说出的文本。
  
    该多模态应用程序使用一提示控件来指定将被播放给用户的音频。该提示控件包含InlineContent属性——它可以包含一个或者是Content型或者是Value型的基本Speech控件。该Content控件指定一特定的包含存储的音频记录的提示文件。该Value控件指定一个HTML Web页面中的元素。该示例应用程序使用一Value控件——它参考一个名为txtText的输入元素(在图2中的"Type some text here:"域)。下面是描述了用于一个提示的标注的HTML:
  
  <speech:prompt id="prmText" runat="server">
  <InlineContent>
  <speech:Value runat="server"
  TargetElement="txtText"
  TargetAttribute="value">
  </speech:Value>
  </InlineContent>
  </speech:prompt>
  
    三、 语音合成标注语言
  
    该TTS引擎在怎样播放由属性InlineContent参考的文本时作出某些缺省的假设,但是开发者能通过使用语音合成标注语言(SSML)元素来控制该TTS引擎生成音频的方式。根据W3C协会的推荐,SSML是一基于XML的标注语言。表1列举出由SASDK所支持的SSML元素。
  
    表1.被支持的SSML元素:表中列出由SASDK所支持的SSML元素并且用于控制TTS引擎生成文本的方式。
  
  SSML元素 描述
  ssml:paragraph/ssml:sentence 用于把文本分解成语句或段落。
  ssml:say-as 用于指定播放文本的方式。它能够接受若干不同的属性来指定文本的类型。
  ssml:phoneme 用于控制一个单词的发音方式。
  ssml:sub 用于指定一个替代单词或词组来代替指定的文本。
  ssml:emphasis 用于提高放到一单词或词组中的重音。
  ssml:break 用于在文本的某些单词间插入一些暂停。
  ssml:prosody 用于控制音调,速率和音量。
  ssml:audio 用于插入被录制的音频文件。
  ssml:mark 用于在文本的某个位置插入一个标记。然后可以使用这个标记来表示一事件或触发一个行为。
  
    该示例应用程序说明了say-as和prosodySSML元素的使用。在该Default.aspx页面上的每个按钮都相应于一个提示控件。这些提示控件在InlineContent元素中包括一ssml:say-as或一个ssml:prosody元素。下面示例显示了针对这些元素之一的HTML标注:
  
  <speech:prompt id="prmSayAsAcronym" runat="server">
  <InlineContent>
  <ssml:say-as type="acronym">
  <speech:Value runat="server"
  TargetElement="txtText"
  TargetAttribute="value"></speech:Value>
  </ssml:say-as>
  </InlineContent>
  </speech:prompt>
  
    当用户点击这些按钮之一,它执行如下所示的JavaScript:
  
  function SayAsAcronym() {
   prmSayAsAcronym.Start();
  }
  
    在上面的示例中,名为prmSayAsAcronym的提示包括了ssml:say-as元素,它指定任何包含在txtText输入元素中的文本都应该被以每个单词的第一个字母方式发出。因此,如果你输入"ASP"到文本元素中并且点击"Say As Acronym",那么该TTS引擎将读每个字母。
  
    为了用该示例应用程序进行试验,你可以输入一些文本片断,然后点击每一个按钮来看一下该TTS引擎是怎样解释文本的。我主张你改变元素值并且用每一个控件生成的方式进行试验。SASDK提供给开发者关于该TTS引擎怎样生成文本的良好控件,因此试验可能会导致出现一种更为自然的基于语音的应用程序。
    做人要厚道,请注明转自chinazhan中国站长(www.ChinaZhan.com)。