2013年9月17日 星期二

一則有關語言學和語音即時翻譯的消息

Google其實一直對語音搜尋和即時翻譯很有興趣,倚靠他們的科技實力和延請頂尖的語言學家應該會有些成果,但我們還不敢保證像科幻電影的情節十年內會看到。

這則臉書推文我覺得很有意思,給各位看看



為了避免原始推文消失,我直接複製一份過來


Pita Woof 理論語言學家覺得自己的研究像「物理」或是「化學」一樣是所謂的「基礎科學」。但是別忘了這些基礎科學都是有其應用面的。

而應用語言學或是語料庫語言學的學者往往覺得自己的研究可以提供較為「實際」的應用,像是搜尋引擎、人工智慧或是語音辨識…等等。結果現在 Google 大剌剌地說:「沒有哦~公司並未聘請任何語言學家哦~」

那我們還有什麼立場說「語言學很重要!請國家社會繼續支持這個學科的發展」呢?
5小時前 · 讚

胡佳音 以前微軟不是說fire掉一個語言學家就可以增加正確率多少多少嗎 XD 基本上因為現在母體樣本大,軟硬體成本又減少,所以可以很強硬地放很多algorithms去跑 XD
5小時前 · 讚

胡佳音 不過我覺得理論語言學有點像理論物理或理論化學。到底是string theory還是loop quantum gravity,到最後可能只是理論信仰的問題XD
4小時前 · 讚

陳鍾誠 Franz Josef Och 本來就是計算語言學翻譯領域的傑出研究者,被 Google 重金挖腳過去的。

不過我相信就算如此,這個問題也沒那麼容易解決,這可是電腦的聖杯,就算 Google 也只能做到某種小進展,要徹底解決恐怕是過度樂觀了 ....
4小時前 · 讚

陳鍾誠 不過文中確實沒有太樂觀,只說 :

翻譯團隊主管 Franz Josef Och 受訪時承認,這個語音翻譯功能目前運算速度還相當緩慢且呆滯,但他舉出 Google 文字翻譯服務的逐年改善為例,認為該應用程式將可以同樣的路線快速發展。

目前最大的障礙依然聳立在前,例如語法和歧義等更加精細的語言奧妙處,翻譯系統仍難以參透。
4小時前 · 讚 · 1

陳鍾誠 所以又是標題殺人法 ......
4小時前 · 讚

Pita Woof 胡佳音  我自己寫來能自動切音節的 Python 程式只用了 400 行上下,不需要預錄語音資料庫做特徵比對的依據;另一個正在開發中的「不需要標記語料庫 (corpus-free)」的中文自動斷詞程式,更只用了 34 行 (內容參照了九條中文語法規則)。處理每天新聞或是論壇裡出現的「全新的句子」就已經有八成以上的正確率。

創業兩年多來,我對這個「聖杯難題」的兩個心得是:
1. 要解決這個問題,把語言學家和程式設計師放在一個 team 裡面,然後希望他們能合作一起做出結果來,這是不可能的。不可能的地方不是「做出結果」,而是「合作」。這兩邊的人根本就只是在同一個辦公室裡各自做各自的事情,彼此都沒有意願去瞭解甚至接觸對方的知識領域。

2. 要說服語言學家去學習程式語言,則是極端困難的事情。困難的是「說服」,而不是「把它學會」。語言學家在人格特質中最偉大 (也最自虐) 的地方是,他們寧可花 2 年的時間去荒山野嶺和一個只剩下 11 個發音人的少數民族相處,去學習一個可能三年後全世界只剩下他一個人會講的人類語言,也不願意花 2 個星期去學會一個將來可以省下他無數 pure labor hour 的程式語言。

綜合以上,若是能解決這個問題的那兩種知識散佈在兩群不願接觸彼此的人身上,或是少數具備了兩種知識的人又剛好對這個問題沒有興趣。那麼此時此刻的「此題無解」自然是最合乎邏輯的結果了。

陳鍾誠 陳老師,那個「語法和岐義」的問題,我還是自虐地相信 (且事實上也做出了一些成果滿有趣的嚐試) 透過語言學的知識和程式語言的操作,是可以得到很不錯的結果的。

4小時前 · 收回讚 · 3

陳鍾誠 更難的是 metaphor 隱喻、轉喻等,有興趣看看「女人、火與危險事務」這本書,相信你會對這個問題的難度有不同的想法 .....
3小時前 · 讚 · 1

Pita Woof 隱喻、轉喻甚至是幽默、挖苦這些東西,我是打一開始就堅定地「不要」讓機器瞭解甚至處理。因為「太太…太危險了!」 XD
3小時前 · 讚

陳鍾誠 但這可不是在幽默才有的,而是遍布整個自然語言 .......

請看「女人、火與危險事務」......
3小時前 · 讚

陳鍾誠 如果不瞭解隱喻、轉喻,就很難處理 on, in, at, off , ......
3小時前 · 已編輯 · 讚

陳鍾誠 但如果硬要用列舉的,也不是不行,將幾個意義區分開來,真的太過「隱喻、轉喻」的就不管了 ....