數字生命

格子裏的夜晚

8.質疑

書名:數字生命 作者:格子裏的夜晚 字數:5216

呂振羽可沒有想到自己會被如此高地評價。之後的幾天裏,他都一直忙著鑽研語言學。

一直到10月12日,一個陌生的電話打到了他的手機上。

“你好。請問是呂振羽嗎?”又是一個陌生的男性中年的聲音。

“對。您是?”

“我是複旦大學中文係的方治強。我女兒的同學跟我說,你有一些語言學方麵的問題需要解答。”

“是的。您是方悠均的父親?”

“對,你也別您啊您的了,叫我一聲伯父吧。”

“好的,伯父,我想和你當麵談談,你什麽時候方便?”

“現在我就在你們學校裏,你到心中書社邊上的那個茶室,我在那裏等你。路音和均兒一會也會過來。”

“好的。”掛上了電話,呂振羽連忙出門了。

呂振羽趕到茶室的時候,路音和均兒都已經到了,一個頭發有點花白的中年人帶著一副式樣極其古老的黑框眼鏡。兩個年輕女子和一個很有學術氣質的中年人坐在一起,樣子頗為奇怪。

“伯父,你好。路音,均兒,你們好。”問候之後,呂振羽坐了下來。

方治強沒有多客套,直接問道:“這所大學的中文係也很強,為什麽你不去找學校方麵幫忙呢?”

呂振羽說:“首先,我隻是個大一的學生,這個項目就算我上報給學校,沒有任何人會相信我有能力做好這個項目。如果上報了,不知道有多少人會覺得我不自量力,是個瘋子。但是,我自己知道,我有機會做好這個項目,雖然不是百分之百的把握,但我同樣不是貿然提出這個項目的。其次,就算學校覺得這個項目不錯,我也沒有把握學校一定會讓我來主導這個項目的走向,中文係的老師們姑且不論,就算我自己的係裏,學院裏,多少專家要指手畫腳?而關鍵在於,他們越是指手畫腳,這個項目失敗的可能性就越大。最後一個原因,我自己已經有了核心技術,我沒有為他人作嫁衣的打算。”

呂振羽說得很自信。方治強點了點頭,問:“你所說的核心技術是什麽呢?”

“人工智能。現在開發這樣一個引擎,很關鍵的一個地方就在於智能判斷,我手裏有自己開發的人工智能核心,問題是我不知道怎麽將這個核心用在關鍵的地方。”

“人工智能?你獨立開發的?能讓我看看嗎?”方治強雖然是研究語言學的,但看得出來他的興趣頗為廣泛。而呂振羽的言辭,也已經引起了均兒和路音的興趣。

呂振羽看到均兒腳邊的筆記本包,問:“能用一下你的筆記本嗎?”

均兒點了點頭,在父親的麵前她顯得無比乖巧,一點也沒有在高中的時候,聞名遐邇的“小魔女”的樣子了。她開機之後,將筆記本推到了呂振羽麵前。

呂振羽從口袋裏拿出優盤,將一段程序拷貝到了電腦上,輸入了密碼之後,運行起了程序,他解釋道:“這是我這一階段的成果,將智能核心和我能理解的一部分中文語法結合起來,編了個造句的程序。界麵是臨時寫的,因為是自己的測試,也就沒太在乎,在上麵那個框輸入要用來造句的詞匯,下麵的框裏就會顯示完整的句子,因為造句是個不可預期的隨機過程,我在邊上設了個按鈕,對句子不滿意可以更換。句型方麵,目前隻有陳述句,一般疑問句,特殊疑問句,祈使句和反問句我還沒寫進去。”

呂振羽的這段程序,其核心是從小羽的主程序中分離出來的一小段代碼。這一小段代碼的作用,比起現在已經有60g空間的小羽主體來說,具有的能力幾乎可以忽略不計,但用在這樣一個簡單的智能程序裏,卻已經有殺雞用牛刀的感覺了,僅僅這段代碼,已經超越人工智能的國際領先水平很多了。這個被命名為“三年級”的小程序,造句的能力上差不多是能和三年級的小學生相比,隻是不具備常識判斷的能力,雖然造出的句子在語法上都沒有任何問題,但有時候含義卻很搞笑。這種造句,很想有些人喜歡玩的一個遊戲,幾個人,每人寫一個句子的一個部分,然後隨機組合起來,變成一堆搞笑材料之類的。

但是,方治強和路音,還有均兒則興致勃勃地一遍又一遍地輸入各種詞匯,看下麵的框裏變幻出非常有趣的句子。

“這個東西要使真的讓小學生拿到手,那就麻煩了,糊弄語文老師應該是沒問題了。”方治強評論道。

“這個小程序的作用僅僅是檢驗一下我的階段性成果而已,不會再有副本了。”

“其實,你能做到這個地步,已經是非常厲害了,你覺得我在什麽地方能幫上你的忙?”

“伯父,市麵上也有不少語音輸入和語言輸出的軟件。語音輸出就不提了,基本上是按照每個字的發音,連續生成而已,比較好的軟件或許還有虛詞的輕讀,但語氣語調方麵都沒有什麽變化。而語音輸入的問題更加複雜,一方麵是對於語音的識別率,目前最好的還是幾年前開發的viavoice,而且對於輸入裝置的要求也不低,而且,語音輸入後,即時字詞方麵都沒問題,斷句,標點也都一塌糊塗,基本上,語音輸入之後,還要靠人工改寫一遍,效率比手打還要差。原來我覺得,通過了解一些語言學,可以找到解決這個問題的辦法,但是,語言學實在是個很怪的學說,看的資料越多,反而越不知道該怎麽下手了。”呂振羽說。

“這樣說吧,從語言學的角度要解決這個識別的問題,這個大家都明白,我也參與過一個叫‘言語的產生、識別與編碼’的項目。目前,所有的機器識別,都是基於字詞和語音的,語法是一個從屬的地位,因為漢語的語法和其他語種區別太大了,規律性並不明顯,雖然按照西方的語法範式,能夠總結出現代漢語使用的大部分規律,但是這並不足夠。字詞的語音識別,產生的素材,被語法模塊排列組合起來。而標點符號,機器自己是無法添加的,因為沒有斷句的功能。這也就是基於語音的機器語言學。”

“那又沒有什麽解決方法呢?”呂振羽問。

“索緒爾在《普通語言學教程》裏有一句話,聲音脫離了書寫符號,就隻是一些模模糊糊的概念。但又有另外一句話,文字越是不表示它所應該表現的語言,人們把它當作基礎的傾向就越是增強。……這兩句話有同一個核心,那就是文字,而位於文字兩邊的則是語音和語義。我想,現在主要的瓶頸在於,語言的識別智能停留在語音到文字的階段,而從文字到語義,則需要一個人自己去進行操作。語義是一個很複雜的東西,憑著你現在掌握的這個人工智能,你肯定可以做出能比較好的理解語義,從而對文本進行修正的軟件,你剛才也說了,你的這個造句程序,缺乏的就是常識層麵的東西。如果加上這一塊,對於語音辨識的判讀是不是就完整了呢?也不是,因為這個常識本身就是有彈性的東西,很多不合乎常識的表達方式平時我們一直在用,你說那是修辭手法也可以,但我們平時都是能理解的,為什麽?因為我們使用語言,無論文字形式還是語音形式,都是基於一個基本的使用環境,也就是所謂的語用。在語用的前提下,語義才會完整。”方治強的說法已經非常非常淺顯,大部分的概念都沒有解釋,但中文的強大適應性也從這些名詞上體現了出來,不需要解釋,相信呂振羽也能夠理解大致的含義,而在這個局麵下,大致理解也就足夠了。

呂振羽回味著方治強的話,反反複複地想著,突然說:“那是不是說,如果這樣一個引擎能基於語義學和語用學來進行開發,然後結合語音識別現有的成果,就能夠比較完善了?”

方治強讚賞地說:“說得對,隻要你能做到。這並不容易。但隻要你能將語用和語義的層麵形成程序,語音方麵的問題就是小問題了,什麽語音流變什麽的根本不用太當回事。”

上一章 目 录 下一章

猜你喜歡