- 百年前美国人在用什么 - 洗脸盆收集 [2019/09]
- 我对移民潮的看法 [2015/09]
- 一件小事 [2019/05]
- 川普擒鹤 [2019/02]
- 现代人大都有便秘的倾向 - 厕所史(屎)话 [2015/11]
- 中美关系正在失控,这里的华人生活在窄缝中! [2019/10]
- 10个硅谷大公司6个CEO是印度人,为何世界没有印度威胁论? [2020/04]
- 为什么大多数犹太人总是支持民主党? [2016/08]
- 为什么美国股市一直没有垮掉? [2019/08]
- 清明时节回国见闻 (4) - 重庆菜市场一览 [2016/04]
- 中国跟世界干了两仗了,下一仗结果会怎么样? [2019/03]
- 星期六夜间实况(SNL)节目辱华的风波和华人表演艺术家的崛起 [2019/09]
- 与文明为敌 - 2019年起,高考政审又回来了! [2018/11]
- 美国逐渐消失的工匠精神和史上最精美的工具箱 [2021/02]
- 最后一课 - 写在中国禁止课外补课的政策生效之时 [2021/08]
- 清明时节回国见闻 (3) - 重庆,重庆 [2016/04]
- 中国,一个山寨大国能取代美国成为世界超强吗? [2016/10]
- 奇惨的人生:高考上大学被人两次顶替 [2020/06]
- 从机器翻译语言说开去 [2018/01]
- 我忠实的朋友 - Trixie 的不归路 (2) [2015/06]
- NBA: 今年的总决赛势均力敌, 比分变成2:2 [2015/06]
- “印度裔正在接管美国”,对莫迪政府不是什么好事 [2021/03]
谷歌收索(search)是现今最流行,最有效的收索工具。它主要进行的是文字(text)收索。就是你提供一个关键词,它给出最接近你想要的收索结果。
尽管它也提供基于图像的收索。但是其结果很不精确,实用性不强。
最近接触了两款新颖的手机程序,是关于声音和图像收索的。在这儿和大家分享。
一天开车出去,放了一盘中国蒙古族歌手德德玛的DVD。女儿告诉我,有一个新的手机应用程序,叫SoundHound。能够听很短一段音乐,就给你找出这音乐的相关的信息, 包括歌名(title),作者或歌唱家(author,singer),专辑(album)等。
自己试了试,只要让手机离声源很近,收索准确的程度非常高。不仅一般西方的音乐很易找到,就是中国的一般民歌和歌唱家都能准确地以中文现出。自己也可以对着手机哼上两句,它能知道你唱的是什么曲子。有点喜出望外。
猜想其背后就是所谓的音频收索(audio search)。如果不是应用了傅里叶(Fourier)頻谱分析或声音合成(Sound Synthesis)算法(algorithm)的话,那么其数据库(database)里一定存了海量的包罗万象的音乐剪辑,不仅是有名的,也有无名的,不仅是一国的,而是全世界的;其中既有严肃的,也有通俗的。为了快速收索出结果,一首曲子可能已被切成了很多很多的小段被存起来。只要有几小段被对上(match),就能给出结果。不需要match整个曲子。
另一个程序,就是谷歌的翻译程序(translate)。自己用它好些年了,权当网上字典用。因为用它来翻译一段英文成中文,译出的中文可能会令人哑然失笑,是那种西方人学出来的中文味道。这西方人学中文那是很好玩的,很难掌握其字义语义随时随地的微妙变化。一个网上的笑话说,一个老外在中国的公司工作,年终了,老板请员工到餐厅团聚吃饭,客气道,“请大家吃个便饭“。老外雇员一激动,马上就说,“这哪是便饭呢?要是,也不是小便饭,绝对是大便饭啊”。
以下举几个用谷歌翻译句子的例子。
这一个还行,
Left brain has nothing left, right brain has nothing right
左脑已所剩无几,右脑具有什么都不对
这一个就有点好笑,这是KFC的广告词。
At KFC, we do chicken right
在肯德基,我们做正确的鸡
这一个就完全不知所云了
A gentleman is rather than does
君子而不是做
可见如果你想成为一个朱生豪,傅雷那样的翻译家,像鲁迅他老人家翻着俄文字典翻译法捷耶夫的《毁灭》那样,借助谷歌的translate去翻译 J. K. Rowling的《Harry Potter》,那么所谓的信达雅,跟以前一样,还是很难达到的。
但是最近玩它的手机版,发现界面上有一个小小的相机icon。Click它,手机的相机打开了。用它对着任何英文,聚焦后,能自动把所见的英文立即翻译成中文,而且不管这英文的字体是花体,美术体,或是广告体,都能不管对错,随时随地翻译。这有点夸张了。知道这意味着什么吗?这意味着一机在手,不要其它的翻译工具,即便一句英文不会,照样能走天下,去全世界旅游。到了异国他乡,不认识那些标牌,用手机对上一照,马上就显现出中文,尽管有时文不对题,结果不准确,但不失为信手拈来的拐棍,壮壮胆子还是不错的。
仔细想来,这当然是基于谷歌本身的图像收索。它的收索的原理如果不是用什么复杂的algorithm去真正做pattern match 的话,那么其原理大致与音频收索相似。这似乎很简单,其实很复杂的。
音频收索似乎成熟一些,因为声音总是能做傅里叶(Fourier)频谱分析。简单地讲,一首歌就是声音随时间的一个分布。其曲线上每一点,不外乎是一系列谐波的叠加。理论上,不论是宋祖英像竹林里竹叶那样尖尖的脆脆的,像空山里画眉鸟叫的湘西苗音,还是像德德玛那样的出自胸腔的而不是喉咙,饱含着草原的宏大和辽远的苍穹迴声,都可以很容易地被抽象成一个Fourier级数。而图像就不能这样处理的,从微观上讲,图像里的一个像素(pixel),既有空间的定义,也有颜色的定义。在这儿,可以不考虑时间。那么可以把空间看成时间。所谓图像就是RGB(色素)随空间的分布。但是空间是2维或者3维的,能把它展开为简谐色波的叠加?至少现在还不能用此类方式处理。
宏观上讲,字体变化多样,字体的胖瘦不一,美术体可能还是手写。这样的话,似乎没有更高级的algorithm,不能做到准确的match。