IT是不是泡沫?- 声音和图像收索

作者:钓鱼城  于 2016-9-16 04:31 发表于 最热闹的华人社交网络--贝壳村

通用分类:流水日记|已有5评论

关键词:手机程序, 收索工具, 谷歌收索, 关键词, 技术

谷歌收索(search)是现今最流行,最有效的收索工具。它主要进行的是文字(text)收索。就是你提供一个关键词,它给出最接近你想要的收索结果。

 尽管它也提供基于图像的收索。但是其结果很不精确,实用性不强。

最近接触了两款新颖的手机程序,是关于声音和图像收索的。在这儿和大家分享。

 一天开车出去,放了一盘中国蒙古族歌手德德玛的DVD。女儿告诉我,有一个新的手机应用程序,叫SoundHound。能够听很短一段音乐,就给你找出这音乐的相关的信息, 包括歌名(title),作者或歌唱家(author,singer),专辑(album)等。

 

                                              

 

自己试了试,只要让手机离声源很近,收索准确的程度非常高。不仅一般西方的音乐很易找到,就是中国的一般民歌和歌唱家都能准确地以中文现出。自己也可以对着手机哼上两句,它能知道你唱的是什么曲子。有点喜出望外。

 猜想其背后就是所谓的音频收索(audio search)。如果不是应用了傅里叶(Fourier)頻谱分析或声音合成(Sound Synthesis)算法(algorithm的话,那么其数据库(database)里一定存了海量的包罗万象的音乐剪辑,不仅是有名的,也有无名的,不仅是一国的,而是全世界的;其中既有严肃的,也有通俗的。为了快速收索出结果,一首曲子可能已被切成了很多很多的小段被存起来。只要有几小段被对上(match),就能给出结果。不需要match整个曲子。

 另一个程序,就是谷歌的翻译程序(translate)。自己用它好些年了,权当网上字典用。因为用它来翻译一段英文成中文,译出的中文可能会令人哑然失笑,是那种西方人学出来的中文味道。这西方人学中文那是很好玩的,很难掌握其字义语义随时随地的微妙变化。一个网上的笑话说,一个老外在中国的公司工作,年终了,老板请员工到餐厅团聚吃饭,客气道,请大家吃个便饭“。老外雇员一激动,马上就说,这哪是便饭呢?要是,也不是小便饭,绝对是大便饭啊

 

以下举几个用谷歌翻译句子的例子。

这一个还行,

Left brain has nothing left, right brain has nothing right

左脑已所剩无几,右脑具有什么都不对

 

这一个就有点好笑,这是KFC的广告词。

At KFC, we do chicken right

在肯德基,我们做正确的鸡

 

这一个就完全不知所云了

A gentleman is rather than does

君子而不是做

 

可见如果你想成为一个朱生豪,傅雷那样的翻译家,像鲁迅他老人家翻着俄文字典翻译法捷耶夫的《毁灭》那样,借助谷歌的translate去翻译 J. K. Rowling的《Harry Ptter》,那么所谓的信达雅,跟以前一样,还是很难达到的。

 但是最近玩它的手机版,发现界面上有一个小小的相机iconClick它,手机的相机打开了。用它对着任何英文,聚焦后,能自动把所见的英文立即翻译成中文,而且不管这英文的字体是花体,美术体,或是广告体,都能不管对错,随时随地翻译。这有点夸张了。知道这意味着什么吗?这意味着一机在手,不要其它的翻译工具,即便一句英文不会,照样能走天下,去全世界旅游。到了异国他乡,不认识那些标牌,用手机对上一照,马上就显现出中文,尽管有时文不对题,结果不准确,但不失为信手拈来的拐棍,壮壮胆子还是不错的。

 

       

仔细想来,这当然是基于谷歌本身的图像收索。它的收索的原理如果不是用什么复杂的algorithm去真正做pattern match 的话,那么其原理大致与音频收索相似。这似乎很简单,其实很复杂的。

 音频收索似乎成熟一些,因为声音总是能做傅里叶(Fourier频谱分析。简单地讲,一首歌就是声音随时间的一个分布。其曲线上每一点,不外乎是一系列谐波的叠加。理论上,不论是宋祖英像竹林里竹叶那样尖尖的脆脆的,像空山里画眉鸟叫的湘西苗音,还是像德德玛那样的出自胸腔的而不是喉咙,饱含着草原的宏大和辽远的苍穹迴声,都可以很容易地被抽象成一个Fourier级数。而图像就不能这样处理的,从微观上讲,图像里的一个像素(pixel),既有空间的定义,也有颜色的定义。在这儿,可以不考虑时间。那么可以把空间看成时间。所谓图像就是RGB(色素)随空间的分布。但是空间是2维或者3维的,能把它展开为简谐色波的叠加?至少现在还不能用此类方式处理。

宏观上讲,字体变化多样,字体的胖瘦不一,美术体可能还是手写。这样的话,似乎没有更高级的algorithm,不能做到准确的match

 

 

 


高兴

感动

同情

搞笑

难过

拍砖
1

支持
3

鲜花

刚表态过的朋友 (4 人)

发表评论 评论 (5 个评论)

11 回复 ziqiao 2016-9-16 05:54
Tried Google Translate with camera, it actually worked! Thanks!
10 回复 钓鱼城 2016-9-16 09:26
ziqiao: Tried Google Translate with camera, it actually worked! Thanks!
  
22 回复 秋收冬藏 2016-9-16 09:46
  
8 回复 8288 2016-9-16 10:26
好玩的还很多
6 回复 钓鱼城 2016-9-16 10:53
8288: 好玩的还很多
这是收索领域里的两个方向。要从text search过渡到multimedia search。就像Instant Messenger 从qq 发展到微信一样。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2013 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2024-3-27 02:11

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部