这是最近我刚在家里部署的一个程序,主要功能就是在每天的特定时间(7:30 以及 18:30 )计算机将自动用中文人声朗读出当天以及后一天的天气情况/预报。天气预报的信息由程序采集自中国气象网(weather.com.cn)。如果你对此感兴趣,不妨了解下这篇文章。
其实类似的应用网上应该也不少,我完成这个应用其实大部分精力也并不是花在天气预报的采集上。而是解决如何将Windows的TTS引擎(MS SAPI)“移植”到Linux上,以及编写相关的服务框架程序。同时,这个应用实际上只是我之前提过的智能化家庭系统(IHES)的一个小应用,所以这次也会连带着发布ihes framework的一些代码(比较简陋,看过算过,哈哈)。在给出具体的程序代码之前,我将一步步介绍其中的一些细节问题,以便有兴趣的人自己实现类似的功能。
1.天气预报的抓取
前文已经提到,我使用的是weather.com.cn的数据。实际上这部分工作是通过一个bash script来完成的。从该网站抓取并提取我们需要的天气信息的一个难点是如何从内容繁多的html代码中有效的筛选我们要的内容。这里我偷了下懒,通过观察他们网站,我发现其wap版本网站内容简单,特别适合抓取:http://wap.weather.com.cn/wap/
基本除了我们需要的天气情况外,只有写简单的关于信息,而且主要都使用了文字。这里以我家所在地:上海松江为例,分析信息提取过程:
该网站wap版不同城市以及预报范围的组织很简单,仅仅通过url地址来标示,比如上海松江24小时(当天)的预报信息页面地址为:http://wap.weather.com.cn/wap/58462/h24/ 而对应的48小时天气预报(第二天)地址为:http://wap.weather.com.cn/wap/58462/h48/ 。很明显,前面的58462应当为地区的区域代码,而预报范围就是后面的h{24|48|...}。因此,实现当天以及第二天的预报提取,只要抓取这2个地址即可。
采用curl工具抓取网页
对于还不熟悉linux环境的朋友,可以在shell里面输入man curl来参看该命令相关信息。直接通过curl即可将对应html输出到stdout。
<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="utf-8">
<head>
<title>24小时[松江]城市天气详情</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
...
接下来要做的就是仅提取出我们需要的预报信息,比如:
[农历二月十九]:
松江 :
天气:晴 :
气温:17度到4度:
风向风力:西南风4-5级转3-4级:
紫外线指数:中等:
我做的处理首先是过滤掉所有html标签,观察curl抓取的html代码可以发现我们需要的信息没有被html tag包含,经过这一步处理,输出的文本中含有可读文字了。接下来需要将空白行去除。最后仅提取我们需要的文本所在的其实行以及终止行即可。这里采用sed过滤。这样一来,最终的处理命令为:
curl -s http://wap.weather.com.cn/wap/58462/h24/ | sed 's/<[^<]*>//g' |
sed 's/^M//g' | sed '/^[ ]*$/d' | sed 's/^.*$/&:g' | sed -n '3,9p'
这样便可得到上面要求的文本输出了。
2.Linux下部署SAPI以及TTS引擎
一定要采用SAPI主要还是因为linux下面我没找到原生的中文TTS库。因此只好想办法利用Windows下面的资源了。办法其实也很简单,用wine... 这里所说的部署,是指同样通过wine运行自己编写的windows程序调用部署在linux下的tts engine来进行朗读。实际上就是进行SAPI com组件以及需要的tts engine com组件的注册工作。这里有一个偷懒的办法:http://www.linuxdiyf.com/viewarticle.php?id=121686
接下来要做的其实就和windows下一样了,打开VC写一段SAPI的调用程序吧...
不过其实问题要复杂些,存在两个困难:
- 该windows程序如何与原生的linux程序/脚本交互(基于wine)
- SAPI依赖窗口消息,需要X-windows环境
可能对一部分人第二个并不是什么问题,不过我目前家里用作服务器的机器配置比较老,为节省资源平时完全禁用了XServer。我又没心思去修改wine来解决这个问题,所以XServer是必须启动的了,那么需要将他的资源消耗尽可能减少。而对于第一个问题,我的解决办法是将TTS发音功能做成一个C/S构架的体系。提供一个./readit的命令,该命令为linux的native程序,readit将需要朗读的文本用tcp报文发送给基于windows(wine)的server程序完成真正的合成朗读。同时我发现每次加载/结束使用sapi的程序,所在的XServer的虚拟内存都会无故增加。因此C/S构架是的server常驻系统也避免了潜在的内存泄露。还有一个好处就是在局域网内任何机器都可以调用该TTS功能。具体的实现这里就不给出了,有兴趣的可以去看源代码。文末给出了readit的linux/win32版本。我的实现中,readit支持如下2种方式调用:
./readit <Text to read>
echo "Text to read by pipe" | ./readit
后者的好处在于能够朗读超过命令行参数长度限制的文本,同时能很好的结合前面介绍的脚本。Linux需要终端设置为UTF-8编码。
对于TTS engine的选择这里就不介绍了,大家选择比较合适的版本即可(Windows自带的那个中文男声其实不怎么样),我采用了上次eArts中运用的TTS引擎。
3.部署
在上面几个问题解决后,就是部署问题了,我把天气预报获取的脚本抽象成命令GetWeather( 24 | 48 )。要朗读明天的天气,采用命令
./GetWeather 48 | readit
即可。在运行该命令前要确保我们的TTS server已经启动了。因为Server部分依赖于Wine和XServer。这里用下面命令来完成Server的加载:
X :3 -ac &
sleep 60
export DISPLAY=":3" && wine win_voice.exe 1>/dev/null 2>&1 &
其中win_voice.exe就是TTS server。可以在开机时配置该脚本。不过要注意脚本运行的当前用户要和部署TTS时,wine所在的用户要一致。
4.代码
IHES framework & readit & win_voice: http://www.csksoft.net/data/code/ihes_readit.tar.gz
注意,仅供个人参考,不可用于商业用途。