數(shù)字時(shí)代文學(xué)研究的轉(zhuǎn)型 ——網(wǎng)絡(luò)文學(xué)研究中的“數(shù)據(jù)”管理
網(wǎng)絡(luò)文學(xué)始于數(shù)字,風(fēng)行于數(shù)字,可以說是數(shù)字讓文學(xué)在互聯(lián)網(wǎng)世界中穿越飛揚(yáng)、一路馳騁,同樣也是數(shù)字讓網(wǎng)絡(luò)文學(xué)成為一種文化工業(yè)。由于數(shù)字的復(fù)制性強(qiáng),也方便存儲(chǔ),使得網(wǎng)絡(luò)文學(xué)的數(shù)字化開一代之風(fēng)——數(shù)字閱讀。我們?cè)诳吹綌?shù)字化具有超越前代的無比優(yōu)越性的同時(shí),往往也容易忽略它的另一面——網(wǎng)絡(luò)文學(xué)的數(shù)據(jù)容易形成數(shù)字的疊加和交叉,特別是由于信息來源廣泛,不同管理單位在數(shù)據(jù)的管理無法做到統(tǒng)一管理,容易形成數(shù)據(jù)的“壓沉”。如果不重視網(wǎng)絡(luò)文學(xué)的數(shù)據(jù)管理,那么就很容易造成“壓沉”數(shù)據(jù)的丟失,造成不可挽回的損失。因此,重視網(wǎng)絡(luò)文學(xué)的“數(shù)據(jù)”管理,既體現(xiàn)數(shù)字時(shí)代文學(xué)研究的轉(zhuǎn)型,也是尊重媒介文化特征和客觀規(guī)律的科學(xué)實(shí)證手段之一。
“數(shù)據(jù)”采集和保存的原則
網(wǎng)絡(luò)文學(xué)的“數(shù)據(jù)”采集和保存不但能夠獲取到第一手的原始資料,還能夠有效防止冗余和龐雜資料的不良誤導(dǎo),因此重視“數(shù)據(jù)”的保存顯得尤為重要。“數(shù)據(jù)”保存應(yīng)遵循以下原則:
—是區(qū)分有限權(quán)限和無限權(quán)限。網(wǎng)絡(luò)文學(xué)數(shù)據(jù)除了各大平臺(tái)的內(nèi)部系統(tǒng)之外,還有外部的公共空間。雖然平臺(tái)的內(nèi)部系統(tǒng)因?yàn)槭艿桨鏅?quán)的規(guī)約,但有一些評(píng)論區(qū)的“副文本”和大眾評(píng)論散落在互聯(lián)網(wǎng)的縫隙中。研究者可以將這些散落的資料進(jìn)行歸納,按照專題的方式進(jìn)行整理、儲(chǔ)存。并將相關(guān)IP地址截圖或復(fù)制下來,以便后期的查詢和校對(duì)。在引用時(shí)一定要把相關(guān)IP地址作為參考文獻(xiàn)或者注釋標(biāo)注出來,否則就會(huì)形成一定的侵權(quán)行為。
二是能夠?qū)?shù)據(jù)進(jìn)行確權(quán)甄別。由于網(wǎng)民的知識(shí)產(chǎn)權(quán)意識(shí)薄弱,在評(píng)論區(qū)有很多評(píng)論是復(fù)制或者摘抄他人的信息,如果不加甄別,研究者直接引用,就容易出現(xiàn)混亂,由于誤用信息,產(chǎn)生不自覺的侵權(quán)行為。很多抄襲和洗稿往往就是采用這種所謂的博采眾長(zhǎng)的手段來實(shí)施的。因此,這也是對(duì)原創(chuàng)作者知識(shí)產(chǎn)權(quán)保護(hù)的重要保證。
三是杜絕碎片化信息的干擾。互聯(lián)網(wǎng)相對(duì)自由的空間,信息與知識(shí)的界限有時(shí)分得不是太細(xì),很多信息是以口水式或是碎片化形式存在的。研究者一方面需要甄別來源,同時(shí)形成信息渠道的可追溯性。最主要的是要能分辨出在何種語境中出現(xiàn)的信息。其次要能對(duì)同類信息進(jìn)行對(duì)比,獨(dú)立思考,這樣對(duì)其價(jià)值進(jìn)行綜合評(píng)估。只有這樣才能去偽存真,披沙瀝金,尋求到有價(jià)值的文獻(xiàn)資源。
四是及時(shí)糾錯(cuò),動(dòng)態(tài)管理。網(wǎng)絡(luò)文學(xué)的“數(shù)據(jù)”由于來源多,復(fù)制性強(qiáng)。同一信源由于不同層次的使用者的多次騰挪,“數(shù)據(jù)”的真實(shí)性和原創(chuàng)性都難以保證。因此,需要及時(shí)與信源比對(duì),還需要與原創(chuàng)作者進(jìn)行核對(duì)。筆者在研究網(wǎng)絡(luò)歷史類型小說時(shí),采信了互聯(lián)網(wǎng)上《明》(酒徒著)的創(chuàng)作時(shí)間是2004年,后經(jīng)作者本人提供的確鑿證據(jù)證實(shí)2004年是錯(cuò)的,實(shí)際時(shí)間創(chuàng)作于2003年。因此,互聯(lián)網(wǎng)信息的誤差確實(shí)比較大,而且如果聯(lián)系不到作者或者當(dāng)事人,有些信息的準(zhǔn)確性就很難保證,這是互聯(lián)網(wǎng)信息的一個(gè)弊端。
五是多方比較,采集范圍擴(kuò)大。由于互聯(lián)網(wǎng)上的“數(shù)據(jù)”既龐雜也無序,有時(shí)就是一個(gè)帖子,連作者都無從知曉。需要充分利用互聯(lián)網(wǎng)搜索引擎的作用,同時(shí)與傳統(tǒng)出版物、其他數(shù)據(jù)庫(kù)進(jìn)行比對(duì),確保信息的一致性和準(zhǔn)確性,能夠明確“數(shù)據(jù)”的真實(shí)性以及來源渠道的合法性。
只有采集到真實(shí)、有效的數(shù)據(jù)才能稱得上是有價(jià)值的信息,并且還要啟動(dòng)對(duì)“數(shù)據(jù)”的真實(shí)性的管理。以確保數(shù)據(jù)的純粹性和對(duì)原創(chuàng)作者的知識(shí)產(chǎn)權(quán)的保護(hù)。
“數(shù)據(jù)”保存及使用方法
網(wǎng)絡(luò)文學(xué)研究中的“數(shù)據(jù)”起到重要的佐證作用。因?yàn)榛ヂ?lián)網(wǎng)作為一種實(shí)踐科學(xué),遵循科學(xué)實(shí)證主義的哲學(xué)原理。因此,“數(shù)據(jù)”能夠起到客觀的證實(shí)作用。當(dāng)然也有人會(huì)對(duì)“數(shù)據(jù)”的真實(shí)性提出質(zhì)疑,因此,“數(shù)據(jù)”的來源以及保存就顯得特別重要。
一是采取截屏的方式保留信息。由于互聯(lián)網(wǎng)信息承載量大,大量信息的疊加使得信息層級(jí)頻次加大,信息的檢索成本大;其次互聯(lián)網(wǎng)系統(tǒng)的不穩(wěn)定性會(huì)使得“數(shù)據(jù)”有丟失的可能性,每一次系統(tǒng)更新都有可能使得信息出現(xiàn)丟失的可能,尤其對(duì)于人文社科“數(shù)據(jù)”而言,極易混同于一般性信息,其重要性未必獲得必要的重視;再次互聯(lián)網(wǎng)“數(shù)據(jù)”受外界的干擾大,“數(shù)據(jù)”與一般信息在監(jiān)管時(shí)受到同等的物理技術(shù)環(huán)境影響,客觀上也會(huì)作為普通信息被“格式化”掉,因此,對(duì)于有價(jià)值的“數(shù)據(jù)”必須提前備份或者截屏保存。
二是將中國(guó)知網(wǎng)、萬方數(shù)據(jù)、超星、維普等數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行定期采擷比對(duì),綜合運(yùn)用。這些知名的知識(shí)型數(shù)據(jù)庫(kù)首先經(jīng)過了編輯的篩選,其次也經(jīng)過了使用并正在使用中,有具體的下載量,也起到使用市場(chǎng)頻次的檢驗(yàn)。筆者在使用中國(guó)知網(wǎng)數(shù)據(jù)時(shí)發(fā)現(xiàn),因?yàn)橛兄孛约安糠制诳蛨?bào)紙沒有進(jìn)入中國(guó)知網(wǎng)系統(tǒng),有些信息無法進(jìn)入互聯(lián)網(wǎng)的知識(shí)系統(tǒng)的檢索,因此,需要擴(kuò)大搜索的半徑,同時(shí)結(jié)合百度、360、搜狗等門戶網(wǎng)站的搜索引擎,綜合比對(duì)和運(yùn)用,確保數(shù)據(jù)的全面和完整。
三是同一渠道的數(shù)據(jù)庫(kù),檢索有年限的要求。比如某家大報(bào),如果檢索近兩年的報(bào)紙可以在線上看到,但是兩年以上的內(nèi)容就無法檢索。因此,研究者需要有意識(shí)定期去下載相關(guān)內(nèi)容,個(gè)人及時(shí)做備份保存。
四是充分使用“數(shù)據(jù)”資源,因?yàn)槭褂帽旧砭褪潜4妗V挥型ㄟ^不斷的使用,提高“數(shù)據(jù)”的曝光度,讓“數(shù)據(jù)”參與經(jīng)驗(yàn)世界的建構(gòu),在建構(gòu)的過程中檢驗(yàn)“數(shù)據(jù)”的有效性和準(zhǔn)確率。同時(shí),也才有可能不斷校正其中有可能出現(xiàn)的錯(cuò)誤,降低錯(cuò)誤率,否則相互引用,以訛傳訛。在使用過程中,盡量采用第一資料,迫不得已采用“數(shù)據(jù)”二手資料,須注明來源、出處,并提供精確的IP地址。筆者在使用“數(shù)據(jù)”時(shí)撰寫研究論文第一稿時(shí)互聯(lián)網(wǎng)上可以采集到相關(guān)信息,等到第二稿修改時(shí),第一稿的IP地址的信息已經(jīng)無法查到。此時(shí)只能忍痛割愛刪除第一稿相關(guān)內(nèi)容。
互聯(lián)網(wǎng)界面上的“數(shù)據(jù)”可取舍性強(qiáng),復(fù)制和刪除都很方便。這種特點(diǎn)帶來了互聯(lián)網(wǎng)“數(shù)據(jù)”的脆弱性和不安全性。需要對(duì)互聯(lián)網(wǎng)“數(shù)據(jù)”進(jìn)行強(qiáng)化和“加密”措施。在充分利用數(shù)據(jù)庫(kù)和搜索引擎的同時(shí),可以結(jié)合私人的數(shù)據(jù)收藏手段作為輔助。
建立網(wǎng)絡(luò)文學(xué)研究專業(yè)“數(shù)據(jù)庫(kù)”
網(wǎng)絡(luò)文學(xué)研究除了作家作品之外,網(wǎng)民評(píng)論的大量“副文本”、媒體批評(píng)、各類機(jī)構(gòu)的研究數(shù)據(jù)、行業(yè)信息、國(guó)家職能部門的管理政策以及社會(huì)的反饋等等均構(gòu)成了網(wǎng)絡(luò)文學(xué)研究的“數(shù)據(jù)庫(kù)”。因此,網(wǎng)絡(luò)文學(xué)研究遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)文學(xué)研究的范疇和理論邊界。需要重視對(duì)網(wǎng)絡(luò)文學(xué)研究“數(shù)據(jù)庫(kù)”的建設(shè)。
一是在《中國(guó)網(wǎng)絡(luò)文學(xué)年鑒》的基礎(chǔ)上,建立《中國(guó)網(wǎng)絡(luò)文學(xué)年鑒》數(shù)字版,便于檢索和使用。并將其中相關(guān)內(nèi)容授權(quán)相關(guān)數(shù)據(jù)庫(kù)或者單獨(dú)運(yùn)營(yíng),作為中國(guó)網(wǎng)絡(luò)文學(xué)專業(yè)數(shù)據(jù)庫(kù)進(jìn)入全國(guó)各大圖書館系統(tǒng)。
二是加強(qiáng)非學(xué)術(shù)類網(wǎng)絡(luò)文學(xué)數(shù)據(jù)庫(kù)建設(shè),與學(xué)術(shù)類的數(shù)據(jù)庫(kù)不同的是,非學(xué)術(shù)類的數(shù)據(jù)庫(kù)主要針對(duì)互聯(lián)網(wǎng)界面中網(wǎng)絡(luò)文學(xué)的社會(huì)化田野采集方式,通過建立一種采集標(biāo)準(zhǔn),通過建模的方式,鎖定相關(guān)信息,進(jìn)行數(shù)據(jù)下載保存。
三是打破機(jī)構(gòu)之間的區(qū)隔,建立網(wǎng)絡(luò)文學(xué)數(shù)據(jù)的共享。在監(jiān)管層,各種數(shù)據(jù)的保密之外,有一些公共信息可以對(duì)相關(guān)高校和研究機(jī)構(gòu)開放。在各大平臺(tái)可將資源數(shù)據(jù)及時(shí)推送到專業(yè)數(shù)據(jù)庫(kù),形成一個(gè)共建的系統(tǒng)平臺(tái)。例如中國(guó)作家網(wǎng)目前的數(shù)據(jù)庫(kù)建設(shè)相對(duì)完善,無差別地采集網(wǎng)絡(luò)文學(xué)專業(yè)咨詢和學(xué)術(shù)成果,未來可以與各省網(wǎng)絡(luò)作協(xié)建立共建共享機(jī)制。
四是平臺(tái)信息共建共享相對(duì)滯后。由于平臺(tái)信息涉及到各自的商業(yè)利益,因此,網(wǎng)絡(luò)文學(xué)網(wǎng)站共建資源平臺(tái)需要強(qiáng)化,建設(shè)一個(gè)共建共享的資源平臺(tái)有利于網(wǎng)絡(luò)文學(xué)的發(fā)展。
五是研究機(jī)構(gòu)之間的信息互換與交流機(jī)制還沒有形成。之所以出現(xiàn)網(wǎng)絡(luò)文學(xué)數(shù)據(jù)出入大,引發(fā)社會(huì)對(duì)機(jī)構(gòu)的數(shù)據(jù)真實(shí)性的懷疑,某種意義上來自各機(jī)構(gòu)的信息不通暢,機(jī)構(gòu)自話自語,機(jī)構(gòu)與機(jī)構(gòu)之間沒有形成一定的交流機(jī)制,因此,數(shù)據(jù)的差異顯露出行業(yè)發(fā)展的透明度差。不準(zhǔn)確的數(shù)據(jù)有可能誤導(dǎo)監(jiān)管層和行業(yè)的決策。
六是圖書館系統(tǒng)對(duì)網(wǎng)絡(luò)文學(xué)行業(yè)標(biāo)準(zhǔn)沒有建立起來。筆者在安徽大學(xué)圖書館系統(tǒng)檢索就有過一次遭遇,圖書館系統(tǒng)中居然將流行讀物誤收入網(wǎng)絡(luò)文學(xué)關(guān)鍵詞搜索系統(tǒng)內(nèi)。這種錯(cuò)誤的出現(xiàn),表面上是圖書館搜索編碼出了差錯(cuò),其實(shí)質(zhì)是網(wǎng)絡(luò)文學(xué)編碼數(shù)字系統(tǒng)的不完善。
網(wǎng)絡(luò)文學(xué)研究專業(yè)“數(shù)據(jù)庫(kù)”可以由專業(yè)團(tuán)隊(duì)建設(shè),也可由相關(guān)高校與機(jī)構(gòu)聯(lián)合組建,實(shí)行共建共享機(jī)制。同時(shí),將作家作品進(jìn)行授權(quán),以第三方的形式付費(fèi)使用或者采用公益性質(zhì)的專供研究之用。
目前,作家作品在檢索之后都需要通過平臺(tái)的授權(quán),否則容易產(chǎn)生版權(quán)糾紛。因此,建立作家作品研究的專業(yè)數(shù)據(jù)庫(kù),也是提高研究質(zhì)量、保護(hù)知識(shí)產(chǎn)權(quán)的重要舉措。
總之,我們注重網(wǎng)絡(luò)文學(xué)數(shù)字化形態(tài)的便捷性和及時(shí)性的同時(shí),萬萬不可忽略網(wǎng)絡(luò)文學(xué)“數(shù)據(jù)”的脆弱性和欠安全性。因此,加強(qiáng)網(wǎng)絡(luò)文學(xué)數(shù)據(jù)管理和保存顯得尤為重要。在想方設(shè)法確保數(shù)據(jù)的準(zhǔn)確性的同時(shí),還要對(duì)網(wǎng)絡(luò)文學(xué)數(shù)據(jù)進(jìn)行安全保護(hù)。加快網(wǎng)絡(luò)文學(xué)研究的專業(yè)數(shù)據(jù)庫(kù)建設(shè),需要研究機(jī)構(gòu)與高校以及相關(guān)平臺(tái)多方聯(lián)合,實(shí)行共建共享的原則,切實(shí)落實(shí)數(shù)據(jù)庫(kù)的建設(shè)工作,使得版權(quán)保護(hù)與研究質(zhì)量提升的雙維目標(biāo)得以實(shí)現(xiàn)。實(shí)行在使用中提高保護(hù)意識(shí),在強(qiáng)化安全性的基礎(chǔ)上提高數(shù)據(jù)使用的質(zhì)量和頻次,在運(yùn)用中提高數(shù)據(jù)的準(zhǔn)確率。讓數(shù)據(jù)為網(wǎng)絡(luò)文學(xué)研究真正起到助力作用。