ChatGPT“認(rèn)識(shí)”唐朝詩人嗎?
近日,復(fù)旦大學(xué)文科資深教授陳尚君先生最新著作《我認(rèn)識(shí)的唐朝詩人》由中華書局出版。陳先生長期從事唐代文學(xué)與歷史基本文獻(xiàn)的校訂與研究工作,而本書的特別之處就是作者對文獻(xiàn)的充分占有和專業(yè)使用,以及作者冷靜客觀的敘述和真情實(shí)感的流露。
《我認(rèn)識(shí)的唐朝詩人》,陳尚君/著,中華書局,2023年2月版
縱觀全書,五十余位唐朝詩人的真實(shí)生活狀態(tài)一一鮮活呈現(xiàn)。可以說,本書是圍繞“人”而展開,只是人物主角的活動(dòng)時(shí)間是離我們有點(diǎn)遠(yuǎn)的唐朝。
最近微軟(OpenAI)開發(fā)的ChatGPT為代表的人工智能(百度在16日推出了其生成式AI產(chǎn)品、大語言模型“文心一言”)引發(fā)海嘯般的廣泛關(guān)注,成為最熱門的話題。它們能夠利用大型語言模型,經(jīng)過反復(fù)校正溝通后,可生成具有特定結(jié)構(gòu)和語言風(fēng)格的文本,如散文、詩歌等。
筆者嘗試結(jié)合陳先生《我認(rèn)識(shí)的唐朝詩人》一書,和ChatGPT3.5做一些互動(dòng),看看誰更“認(rèn)識(shí)”唐朝詩人。
一、ChatGPT“認(rèn)全”唐朝詩人了嗎?
首先,我們就這本書提供的一組數(shù)字對AI做一個(gè)測試。對于數(shù)字來講,AI不需要特殊的語義轉(zhuǎn)換,只需要根據(jù)AI所搜集到的數(shù)據(jù)進(jìn)行簡單的加減即可。向ChatGPT提問的這個(gè)問題,各種搜索引擎也能在頭部位置顯示答案,問題如下:
為了提高答案的準(zhǔn)確度,我們采用了兩種表達(dá)方式分別詢問,得到的答案差別卻很大。第一種回答“2.2萬余人”“5.4萬余首”,第二種回答“兩千多位”。
根據(jù)清康熙年間編纂的《全唐詩》,收詩人2200多位,詩歌48900多首,加上陳尚君先生《全唐詩補(bǔ)編》收錄詩人1600多位,其中新見詩人900余位,詩6327首,唐詩總量為48900+6327=55227(首)。陳先生書中提道:
五萬多首唐詩,近四千作者,每篇皆曾閱讀校寫五到十遍,每人皆窮搜文獻(xiàn),務(wù)知始末,名家固得了然于心,僅存單篇只句者亦未敢輕忽。
從數(shù)字上可以看出,陳先生真正做到了在文獻(xiàn)上的全面占有,并且對每首詩和每個(gè)詩人都了然于心。ChatGPT的數(shù)據(jù)集采集截至?xí)r間為2021年9月,而早在1992年10月出版的《全唐詩外編》就已對存世唐詩數(shù)量進(jìn)行了厘清。在百度百科中早有詞條顯示:
加上《全唐詩外編》原有成果,《補(bǔ)編》共收詩六千三百二十七首,句一千五百零五條,約為《全唐詩》作品的七分之一;收詩人一千六百多位,其中新見者九百余位,接近《全唐詩》詩人的三分之一。至此,唐詩作品存世者正式已知詩達(dá)五萬五千七百三十首,句計(jì)三千零六十條;所涉唐代詩人三千七八百位。這還不包括1992年夏天在湖南長沙唐窯出土瓷器上所題的幾百首唐詩。
因此,ChatGPT對于唐詩總數(shù)的回答是基本準(zhǔn)確,而對唐朝詩人數(shù)量的回答不一,前后相差十倍,第一個(gè)回答 “2.2萬余人作過詩”,是第二種回答“兩千多位”的近10倍。
但第一個(gè)答案中“作過詩”的表達(dá),似ChatGPT在故意玩弄一個(gè)文字游戲,畢竟“作過詩”可以理解為唐朝人會(huì)一定的音韻格律技巧就能來上幾句而成為詩人,而不一定有作品被記錄下來。
從這一“回合”來看,陳先生占據(jù)文獻(xiàn)的原始出處,優(yōu)勢非常明顯。關(guān)于唐詩、唐朝詩人數(shù)量的數(shù)字早已經(jīng)公開,而ChatGPT數(shù)據(jù)集卻沒有采集到這組數(shù)字,說明在數(shù)據(jù)統(tǒng)計(jì)上,ChatGPT還沒有“認(rèn)全”唐朝詩人。
二、ChatGPT是怎么“認(rèn)識(shí)”唐朝詩人的?
唐詩“大數(shù)據(jù)”相對容易獲取,具體到每一個(gè)活生生的詩人,ChatGPT又是怎么“認(rèn)識(shí)”的呢?
以晚唐詩人溫庭筠為例,他生前屢受挫折,死后還背了一千多年的“浮浪”之名,被冠以“恃才傲物”“輕薄無行”的惡謚。詩歌方面,他與李商隱齊名,時(shí)稱“溫李”。詞作方面的成就更高,被尊為“花間詞派”的鼻祖。
然而,溫庭筠雖多次參加科舉考試卻均以落榜告終,名聲在外,然無人賞識(shí),一生郁郁不得志,這是為什么呢?《我認(rèn)識(shí)的唐朝詩人》中有一篇文章《溫庭筠的早年經(jīng)歷:從有志青年到文場浪子》詳細(xì)記錄了溫庭筠早年所經(jīng)歷的事情:
近四十年前,我重加研究,認(rèn)為李仆射就是寫出《憫農(nóng)二首》的著名詩人李紳,并根據(jù)李紳生平,推測溫庭筠的生年為貞元十七年(801),詳拙文《溫庭筠早年事跡考辨》(《中華文史論叢》,1981年第2輯)。由于溫庭筠生年大幅度推前,他在四十歲以前的早年生活經(jīng)歷也引起學(xué)者更多的關(guān)注,對他的存世作品,學(xué)者做了許多全新的解讀,看到他從一個(gè)衰落的世家走出,曾有積極用世的雄心,一連串的挫敗后,棄而浪跡文場,游戲青樓,以另一番成就留名青史。
就著這樣一個(gè)問題,我們嘗試讓ChatGPT回答一下。
回答之前我們先了解ChatGPT的基本原理,即通過語料的訓(xùn)練有目的地學(xué)習(xí)人類語言知識(shí)和模式,從而生成高質(zhì)量的文本。
就此,筆者反復(fù)提交問題,不斷修正,終于從類似小學(xué)生寫作的概述文字變成如下的回答:
ChatGPT回答中有幾處明顯的錯(cuò)誤,其一,溫庭筠是宰相溫彥博的裔孫,而非兒子。其二,溫“出生在一個(gè)富裕的家庭中”并不符合,從“道直更無侶,家貧唯有書”(《贈(zèng)盧長史》)的自述可知,在他出生的年代,溫家已經(jīng)頗為寒苦了。其三,正史中并沒有記錄哪個(gè)女詩人和溫庭筠有關(guān)聯(lián),但據(jù)“風(fēng)月小報(bào)”的消息,和溫庭筠有過交集的女子并非“薛濤”而是女道士“魚玄機(jī)”——《唐才子傳》之魚玄機(jī)載:“與李郢端公同巷,居止接近,詩筒往反。復(fù)與溫庭筠交游,有相寄篇什。”與魚玄機(jī)交游并寫詩相寄的詩人有很多,溫也只是其中之一。薛濤是與魚玄機(jī)、李冶、劉采春并稱為唐代四大女詩人,與之有交集的應(yīng)為詩人元稹。
掌握全網(wǎng)數(shù)據(jù)集的ChatGPT在描述溫庭筠的人生經(jīng)歷時(shí),并沒有準(zhǔn)確而生動(dòng)的文本生成;陳先生的文本則從史實(shí)出發(fā),相互映照,將溫的出生年提前11年,并分別從“早年的出塞與入蜀”“甘露事變前后”“入東宮陪游太子及其影響”“開成末之登第罷舉”直到最后“索性就在紅塵中做一個(gè)浮艷才子”,還原了溫跌宕起伏的前半生,也為后半生里,科舉無望,只能墮落紅塵的行為埋下了伏筆。才華橫溢卻流連花叢,終落下浪蕩之名聲,卻“以他的深厚造詣寫作此類作品,開創(chuàng)了以隱約迷離、秾艷綺麗為特征的新的文學(xué)語境”。溫庭筠的人生不幸卻成就了“花間派”詞的創(chuàng)作,他也被尊為“花間詞派”之鼻祖,并與韋莊齊名。
從溫庭筠一文中,陳尚君先生堅(jiān)持現(xiàn)在傳記文學(xué)的立場,“是真實(shí)全面而生動(dòng)地寫出傳主一生之經(jīng)歷和事功,他的時(shí)代、他的家族、他的交往、他的言談,不允許任何的虛構(gòu),也不作刻意的掩飾和拔高”。
限于ChatGPT對數(shù)據(jù)集的使用和學(xué)習(xí),在有限的數(shù)據(jù)集中,人工智能不能做到甄別有主觀傾向性的那些數(shù)據(jù),而只能當(dāng)作素材堆砌到生成的文本中;而人類憑借人文、歷史、哲學(xué)等學(xué)科的訓(xùn)練,雖不能做到絕對的客觀公正,但能甄別文獻(xiàn)的真假,并能對有主觀傾向的材料做出一定的判斷,使之成為可供電腦采集的準(zhǔn)確數(shù)據(jù)集以及供后人進(jìn)一步甄別判斷的材料。
從一定意義上說,人工智能也是在延續(xù)人類的思想。從今天對比ChatGPT和人類對于唐朝詩人的理解,無疑人工智能還無法理解唐詩,更不能真正地“認(rèn)識(shí)”唐朝詩人的人生。