王兆鵬:大數(shù)據(jù)里的唐宋詩詞世界
人們習(xí)慣用史料來描述文學(xué)史的高峰狀態(tài),而在當(dāng)今大數(shù)據(jù)時代,我們或可嘗試用大數(shù)據(jù)來顯示和驗證,并透視數(shù)據(jù)背后的文學(xué)史意義,進而反思數(shù)據(jù)存在的問題和展望未來努力的方向。唐宋詩詞世界華茂繁榮,大數(shù)據(jù)可帶我們領(lǐng)略其中新的風(fēng)采。
唐宋詩詞的多個“第一”
唐詩是中國詩歌史上第一座高峰。據(jù)統(tǒng)計,東漢到隋末近六百年,詩歌總共才五千余首,而到唐代,詩歌第一次超過萬首并直接跨越到五萬多首,達到前所未有的高峰。唐詩比之前的八代詩增加了七倍多,詩人由六百余位增加到三千余位,詩人和詩作都達到前所未有的量級。唐詩歷經(jīng)三百余年,其頂峰在盛唐。其時詩人五百余位、詩作近八千首。依據(jù)詩歌在歷代選本中的入選頻次、被歷代詩論家品評的頻次、被后人追和的頻次和當(dāng)代學(xué)者研究的頻次、被網(wǎng)頁著錄及評論的頻次等數(shù)據(jù)加權(quán)計算,一定程度上可評估一首詩的影響力。通過這種可量化的計算,我們可將影響力位居前列的視為名篇。在唐詩百首名篇中,盛唐占59首。而唐詩的十大名篇,盛唐更獨占8首。按名篇數(shù)量排列出的唐代十大詩人,盛唐占6位:杜甫、李白、王維、王昌齡、孟浩然和岑參。
宋詞是中國詞史上第一座高峰。詞人近一千五百位,詞作超兩萬一千闋。較之唐五代,宋詞用調(diào)增加了七百余種,詞人詞作都增加了十多倍,表現(xiàn)出詞體的豐富、整體面貌的繁榮。唐五代詞人中,唯溫庭筠、馮延巳、李璟、李煜四家有詞集傳世,而宋代有三百多家有詞集流傳。詞人有詞集傳世,意味著作品多、知名度高、社會需求量大。數(shù)據(jù)顯示,宋詞在唐五代之后已達到高潮,元祐時期更達峰值。其時詞人近二百位、詞作約四千闋,比宋初和慶歷兩個時期的詞人詞作總數(shù)還多出一倍有余。在百首宋詞名篇中,元祐時期占27闋,名列宋詞六個階段的首席。
人們習(xí)慣以宋詞作為宋代文學(xué)成就的代表,其實,宋詩也是重要的一部分。數(shù)據(jù)顯示,宋代詩人詩作的數(shù)量超越唐詩而達到新高度,詩人九千多位,詩作二十五萬余首,是唐詩作品量的五倍多。值得注意的是,宋詩的頂峰也在元祐年間,其時詩人一千六百余位,相當(dāng)于前兩個時期詩人數(shù)量的總和;詩作五萬余首,比前兩個時期的詩作總和還多出七千多首;宋詩的十大名篇,此時獨占5首;蘇軾、黃庭堅、王安石等影響深遠的大詩人都生活和創(chuàng)作在這個時期。近人陳衍論詩,說唐宋詩史上有三個輝煌的高峰時段,所謂“上元開元、中元元和、下元元祐”,數(shù)據(jù)印證了他的判斷。
從個體詩人來看,唐詩宋詞里誰的作品最多?數(shù)據(jù)顯示,白居易名列唐詩作品量的榜首,詩作近三千;杜甫和李白緊隨其后,都超過千首大關(guān)。宋詞中辛棄疾的詞作量位居第一,有六百余闋,其次是蘇軾、劉辰翁。宋詩的篇數(shù),則由陸游稱雄,凡九千多首,其次是劉克莊和楊萬里。
作品多的詩人詞家,是否影響力大、知名度高?根據(jù)綜合影響指數(shù)排名,唐代詩人影響力第一的是杜甫,其次為李白、王維,而作品量居第一的白居易,影響力排在十名之外。宋代詞人作品量和影響力第一的都是辛棄疾,蘇軾和周邦彥分別居第二、第三。高居宋詩影響力榜首的是蘇軾,作品量雄居榜首的陸游緊隨其后。
“第一”背后的文學(xué)史意義
數(shù)據(jù)不僅標(biāo)示誰第一、誰領(lǐng)先,還蘊含更深層的文學(xué)史意義,可以探究其背后隱藏的歷史過程和變化動因,揭示規(guī)律性認識。比如,通過檢視和分析唐詩名篇崔顥《黃鶴樓》的各種數(shù)據(jù),可以發(fā)現(xiàn)第一接受者李白的評價和創(chuàng)作比拼發(fā)揮了重要作用。可見,除自身的藝術(shù)含量外,故事傳播和意見領(lǐng)袖的評價也是名篇生成的重要因素。
數(shù)據(jù)能具體顯示詩人詞家名聲的高下。提到唐詩宋詞的名家,人們習(xí)稱“李杜”“蘇辛”,似乎李優(yōu)于杜、蘇勝于辛。但綜合影響指數(shù)表明,杜甫高于李白、辛棄疾強于蘇軾。更令人意外的是,最受追捧的詞人不是蘇辛而是周邦彥。在一百首和三百首宋詞名篇中,周邦彥各占15首和40首,占有率遠高于蘇、辛。王國維說“詞中老杜,非先生(周邦彥)不可”,堪稱卓識。周濟《宋四家詞選》也推周邦彥為學(xué)詞的最高典范,所謂“問途碧山,歷夢窗、稼軒,以還清真之渾化”,數(shù)據(jù)印證了周濟的眼力。
數(shù)據(jù)可以明確展示名篇名家影響力的時代變化。宋明以來,崔顥《黃鶴樓》詩和蘇軾《赤壁懷古》詞的影響長盛不衰,故分別成為唐詩宋詞的第一名篇。而陳子昂《登幽州臺歌》、張若虛《春江花月夜》等聲名卓著的名作,明清以前影響甚小,到近現(xiàn)代才廣受注目,故綜合影響力排名靠后。岳飛《滿江紅》、陸游《卜算子·詠梅》等也都是到現(xiàn)當(dāng)代才被發(fā)掘出的名篇。周邦彥的影響力,在明清時期的詞壇遠大于蘇辛,只是到現(xiàn)當(dāng)代由于文學(xué)價值觀念的變化才下滑落后。
數(shù)據(jù)還反映出詩人影響力與作品量的關(guān)系。杜甫、李白的詩作量名列前茅,辛棄疾、蘇軾的詞作量也是第一、第二。由此可以說,影響力大的詩人,其作品量也很大,但不能說作品量大就一定影響力大。白居易詩作量位居唐代詩人之首,綜合影響力卻沒進入前十名。陸游的詩篇比蘇軾多出兩倍,綜合影響力卻在蘇軾之后。由此可見,精品名作多才是成為影響力大的詩人的決定性因素。宋人趙汝騰《石屏詩序》說:“詩之傳,非以能多也,以能精也。精者不可多,唐詩數(shù)百家,精者才十?dāng)?shù)人,就十?dāng)?shù)人中選其精者,才數(shù)十而已。惟少陵、謫仙能多而能精,故為唐詩人巨擘也。”蘇、辛的精品名篇量也印證了趙汝騰的判斷。
數(shù)據(jù)的“不可為”和“可為”
雖然數(shù)據(jù)能在一定程度上描述顯示文學(xué)史的發(fā)展面貌和進程,揭示隱藏在歷史背后的真相與意義,但數(shù)據(jù)也有明顯的局限性。一是效度有限,只能說明文學(xué)史的部分問題,而無法有效解決所有問題。二是信度受限,無論是人工挖掘還是機器自動提取,受人的認識水平和技術(shù)水平的制約,數(shù)據(jù)的信度會有優(yōu)劣高下的差異。
由于指標(biāo)種類少,目前衡量名篇名家的數(shù)據(jù)還不充分完備,尤其缺少內(nèi)質(zhì)型數(shù)據(jù),因此需要持續(xù)不斷地挖掘和充實。挖掘數(shù)據(jù)的難度,不僅在于到哪里找數(shù)據(jù),更在于要找哪些數(shù)據(jù)。文學(xué)史上從來沒有數(shù)據(jù)意識和數(shù)據(jù)存量,什么樣的數(shù)據(jù)對衡量一個時代或一個時期的文學(xué)繁榮程度、評價作家作品的優(yōu)劣高低有用有效,這既是實踐操作問題,也是理論認識問題。
大數(shù)據(jù)時代的文學(xué)數(shù)據(jù),需要分類分層建立起文學(xué)史數(shù)據(jù)的指標(biāo)體系,以確保數(shù)據(jù)的信度和效度。可以探索和討論:一個時代或一個時段文學(xué)的繁榮狀態(tài),除了用作家作品的數(shù)量增長來衡量,還有哪些量化指標(biāo)、特別是內(nèi)質(zhì)型指標(biāo)可以體現(xiàn)?在創(chuàng)作主體維度,文學(xué)群體、文學(xué)流派的數(shù)量和規(guī)模是否應(yīng)該作為衡量文學(xué)繁榮的指標(biāo)?又該如何測度個體作家和文學(xué)群體或文學(xué)流派的藝術(shù)貢獻、文學(xué)史地位?在作品文本維度,如何衡定其思想情感含量和藝術(shù)審美含量?也許應(yīng)該考量以下三個層面:形式層面,體裁體式的創(chuàng)新度、豐富度;內(nèi)容層面,表現(xiàn)主體內(nèi)在精神世界和外在社會生活世界的深廣度;藝術(shù)層面,表現(xiàn)技巧的難度和藝術(shù)表現(xiàn)的完美度等。有了完整的指標(biāo)體系,才有目標(biāo)和途徑去尋找發(fā)掘數(shù)據(jù),才有可能借助人工智能技術(shù),讓計算機自動分析提取數(shù)據(jù),不斷擴大數(shù)據(jù)的種類和體量。在此基礎(chǔ)上,通過計算機自動提取獲得海量數(shù)據(jù),不斷滿足大數(shù)據(jù)時代學(xué)術(shù)研究的需求。
(作者:王兆鵬,系國家社科基金重大項目“唐宋文學(xué)編年系地信息平臺建設(shè)”首席專家、四川大學(xué)文學(xué)與新聞學(xué)院講席教授)