再續‧Google Translate猜想
簡單點說吧,這是一個猜想,純粹為憑空想象Google Translate背後的運作方式。此外本文全為筆者坐井觀天之作,也許大家早已知道Google Translate的運作方式也說不定,我還在這裏瞎猜。
猜想︰Google Translate非一般巿面Translator,她本身沒有Dictionary,翻譯全靠Google Search Engine。
雖說沒有証據,但週邊的理據也有不少︰
- Google Translate本身其實是一個Research Program,還未正式對外開放,有人預言正式開放的日子大概在2009年。那麼現在使用的beta version呢?Google對其沒有任何的支援,所謂的Google Translate API全是Developer硬將網頁Parse出來的。因此現在beta version不成熟,這是肯定的了。問題只在於成熟與否與猜想並無直接關係。
- 事實上,這個猜想中提及的翻譯方法才是合符Web2.0的方法。自己本身並沒有強大的Dictionray,翻譯全靠Google Search Result協助,也就是說翻譯的基礎在於「多人認為是這樣翻譯的,那就應該是這樣翻譯的」。筆者試過把一些名人的正式中文譯名作翻譯,例如克林頓、彭定康、比爾蓋茨、普京、卡夫卡、莎翁、雨果、劉德華、張學友、李澤楷等等,全中。要知道把中名譯名譯成正確的英文譯名是難度很高的事,我個人倒完全不相信Google擁有一個死的Dictionary自己去maintain,有AI作training是十分有可能的,只不過假如Google Translate是based on Google Search Engine的話,那麼AI也用不著了,世界上的人說甚麼就是甚麼,有人認識比爾蓋茨,那麼Google Translate就懂得翻譯比爾蓋茨。
- 事實上前天的文章《古古怪怪的Google Translate》中有不少試驗結果也可作參考。首先要注意的是不同時段翻譯會出現不同結果這一點。跟上一點一樣,有AI training的可能性,不過這次我倒不太同意這可能性,原因有兩點︰要有AI training的話,至少我也要提供一個我認為對的翻譯結果給Google Translate,但現在沒有,連對翻譯結果滿意與否的問卷也沒有;其次是,就前文例子而論,總不會有人無聊到短時間內不停地訓練Google Translate把「雞絲粉皮」「仆街」等詞譯成不同意思吧?
- 承上點,除了不同時段出現不同結果外,翻譯結果內容亦很有問題。我不是說翻譯對錯的問題,而是完全古怪的結果如「,500」「1,10」「04:45」,又如英文大小寫(例如有時全大寫),又或是突然多出標點符號(例如李澤楷譯成「Richard Li;」)。這些結果無法不令人想象這些翻譯結果是從某處Grep出來的,有些甚至Grep失敗了(「,500」「1,10」「04:45」是很明顯的例子),而「某處」最可能莫過於Google Search Engine了吧。
証實這個猜想了又如何呢?其實証實後本身無甚意義,頂多大家可以用SEO把「仆街」及「ShawTim」的page ranking提高,然後用Google Translate譯「仆街」會出現「ShawTim」的翻譯結果…