雅虎最近推出一项新的搜索服务,专门用来搜索声音文件,雅虎声称该搜索引擎可搜索五千万个音乐、对话或其他声音文件。但是网民试用后发现搜索器只为用户搜索正版音乐,众所周知,网上免费正版音乐其实不多,因此能成功通过这个搜索引擎找到想要的音乐文件机会并不大。
是新技术吗?
实际上,这类声音搜索其实也不是新技术,原因在于这些"声音搜索",一般是以声音文件的名称来辩别文件,准确度并不高。另一搜索方法是查看声音文件所在的页面,通过页面文字的上下文义,来估计声音文件的内容。
以这个办法来搜索声音文件,其他搜索引擎如Google或AltaVista其实已可做到。可惜的是,搜索引擎也怕惹纠纷,因此不会为网民搜索网上的盗版音乐,这样一来,能通过搜索引擎找到的免费MP3寥寥可数。
在网民看来,百度在某些方面其实比Google厉害,以搜索音乐文件为例,google或雅虎的声音搜索找不到的文件,百度都可以轻易在内地找到大量盗版下载点,因此颇受内地网民欢迎。百度上市后,是否需改变方向值得关注。
真正的声音搜索技术并不是以上述文件名称或页面内容来搜索,而是以语音辨识技术,先将内容文字化,然后再搜索文字。
以美国CNN电视台自行制作的一个新闻牌搜索器为例,他们把所有新闻片进行一次语音辨识,再把辨识后的文字以搜索引擎索引排列分类,当将来记者要搜索某段影片,便可搜索影片中出现过的句字,找到影片。
电视台自行开发软件
同类的语音辨识搜索系统,目前市面上还没有一套完整的解决方案出售,因此CNN也要自行编写软件来自用。
据说有多家电视台想开发同类系统,但至今仍未见成功案例,其实各搜索公司也可考虑一下,应用有关的搜索技术推出类似的商业产品。