国产在线导航,欧美日本中文,黄色在线观看网站永久免费乱码,chinese国产在线视频,亚洲欧洲第一视频,天天做人人爱夜夜爽2020毛片,亚洲欧美中文字幕在线网站

現(xiàn)在位置:范文先生網(wǎng)>理工論文>計(jì)算機(jī)信息技術(shù)>地方研究文獻(xiàn)數(shù)據(jù)庫(kù)主題檢索初探

地方研究文獻(xiàn)數(shù)據(jù)庫(kù)主題檢索初探

時(shí)間:2022-08-09 07:11:28 計(jì)算機(jī)信息技術(shù) 我要投稿
  • 相關(guān)推薦

地方研究文獻(xiàn)數(shù)據(jù)庫(kù)主題檢索初探


一、地方研究文獻(xiàn)數(shù)據(jù)庫(kù)的數(shù)據(jù)源

地方研究文獻(xiàn)數(shù)據(jù)庫(kù)主題檢索初探

地方研究文獻(xiàn)數(shù)據(jù)庫(kù)是中文文獻(xiàn)信息資源數(shù)字化的重要組成部分。地方研究文獻(xiàn)是指本地與外地出版的某一地域或區(qū)域的內(nèi)容的文獻(xiàn),建立地方研究文獻(xiàn)數(shù)據(jù)庫(kù)是為了使用戶全面了解某一地域或區(qū)域的社會(huì)生活、經(jīng)濟(jì)、文化等信息,便于用戶進(jìn)行地方研究。

地方研究文獻(xiàn)數(shù)據(jù)庫(kù)的數(shù)據(jù)源主要是:

1.資料性文獻(xiàn)。例如地方志、文史資料等,史料、年鑒、統(tǒng)計(jì)資料、政府出版物(白皮書、藍(lán)皮書等)。在我國(guó),歷代纂修的各地區(qū)資料性文獻(xiàn)很豐富,廣西省1988年出版的《廣西方志提要》,收錄1950年以前出版志250種。廣東省1950年以前歷代編修的地方志達(dá)800多種, 80年代以來(lái)新修省、市、縣地方志已出版1000多種,規(guī)劃出版專業(yè)性地方志5000多種。

2.論文、論著包括地方研究叢書、叢編、報(bào)刊上發(fā)表的論文和會(huì)議論文、調(diào)研報(bào)告、論文集等。例如有關(guān)南海及南海諸島的《南海海區(qū)綜合調(diào)查研究報(bào)告》、《南海海洋生物研究論文集》,據(jù)不完全統(tǒng)計(jì), 1993-1994年南海海洋科學(xué)方面的70多篇論文,發(fā)表在20多種期刊上。此類文獻(xiàn)很多是全國(guó)或省市社會(huì)科學(xué)研究項(xiàng)目的科研成果,為領(lǐng)導(dǎo)決策提供理論依據(jù),為社會(huì)主義建設(shè)服務(wù)。例如,《廣西社會(huì)經(jīng)濟(jì)情勢(shì)考察研究報(bào)告集》一書是國(guó)務(wù)院下達(dá)的《西南地區(qū)國(guó)土資源綜合考察和發(fā)展研究》項(xiàng)目中的廣西部分研究成果。廣西壯族自治區(qū)制訂廣西十年規(guī)劃和“八五”計(jì)劃時(shí),采納了《廣西對(duì)東南亞開放戰(zhàn)略研究》報(bào)告中提出的一些對(duì)策和建議。

3.政策性文獻(xiàn)和法令法規(guī)例如,地方性黨政會(huì)議及文件,領(lǐng)導(dǎo)人講話、文章等,地方法令法規(guī)也可在此范疇內(nèi)。這是發(fā)展地方經(jīng)濟(jì)的重要政策法令依據(jù),是重要文獻(xiàn)類型,一般全文收入。

4.新聞媒介的消息報(bào)導(dǎo)隨著地方報(bào)刊的種數(shù)與版面激增,中央和地方新聞媒介大量報(bào)導(dǎo)各地的各類消息,例如《廣州日?qǐng)?bào)》設(shè)立珠江三角洲的專版,《南方日?qǐng)?bào)》設(shè)立廣州的專版。此類信息內(nèi)容廣泛,時(shí)間性強(qiáng),及時(shí)報(bào)導(dǎo)要聞以及地方不同階段的熱門話題。

二、地方研究文獻(xiàn)的主題

地方研究文獻(xiàn)的主題與文獻(xiàn)的類型、文獻(xiàn)的內(nèi)容、數(shù)據(jù)庫(kù)收錄范圍及庫(kù)容量等均有密切關(guān)系。

地方研究文獻(xiàn)的類型多樣,信息量大,文獻(xiàn)的主題包含歷代社會(huì)的內(nèi)容,更多的是反映當(dāng)代社會(huì)生活的各方面,與學(xué)科(或?qū)I(yè)性)文獻(xiàn)以及新聞信息相比較,其主題范圍更廣泛,而且年代更久遠(yuǎn)。另一特點(diǎn),不同地區(qū)不同時(shí)期社會(huì)生活中的熱點(diǎn)有異,文獻(xiàn)內(nèi)容即論述、報(bào)導(dǎo)的問題有較強(qiáng)時(shí)效性,有的信息的生命力也有時(shí)間限制。例如,香港新機(jī)場(chǎng)建設(shè)和運(yùn)營(yíng)之初,引起社會(huì)極大關(guān)注,一個(gè)月內(nèi)香港出版的報(bào)章雜志報(bào)導(dǎo)有關(guān)新機(jī)場(chǎng)的消息與評(píng)論數(shù)百條,現(xiàn)在這方面的報(bào)導(dǎo)就很少。

地方研究文獻(xiàn)數(shù)據(jù)庫(kù)既有書目數(shù)據(jù)庫(kù)(數(shù)據(jù)形式為書目、索引、文摘),也有全文數(shù)據(jù)庫(kù),而且全文數(shù)據(jù)庫(kù)和多媒體技術(shù)發(fā)展很快,文獻(xiàn)信息資源數(shù)字化技術(shù)的發(fā)展,使數(shù)據(jù)庫(kù)建庫(kù)方式,同一數(shù)據(jù)庫(kù)中數(shù)據(jù)的形式等均發(fā)生變化。地方研究文獻(xiàn)數(shù)據(jù)庫(kù)應(yīng)比較全面地反映該地區(qū)社會(huì)的發(fā)展,包括歷代政治、經(jīng)濟(jì)、文化教育、科學(xué)技術(shù),自然現(xiàn)象、歷史事件、地理及名勝古跡、風(fēng)土人情以及機(jī)構(gòu)、人物等。數(shù)據(jù)形式包括二次文獻(xiàn)、全文以及圖像(包括地圖等)、音像。用戶可按需要查閱、下載或打印數(shù)據(jù)庫(kù)中某一主題的全部文獻(xiàn)。建庫(kù)方式的變化,既可從某一文獻(xiàn)部門自建庫(kù),也可聯(lián)合建庫(kù),甚至跨地區(qū)、跨國(guó)合作建庫(kù)。

文獻(xiàn)資源數(shù)字化建設(shè),文獻(xiàn)數(shù)據(jù)庫(kù)建庫(kù)技術(shù)的發(fā)展,以及用戶文獻(xiàn)檢索的需求的變化,對(duì)檢索語(yǔ)言、文獻(xiàn)主題的處理技術(shù)以及MARC格式等提出了更高的要求。海量文獻(xiàn)、建庫(kù)速度與質(zhì)量的提高,要求錄入和主題處理技術(shù)有較大的突破。目前漢字錄入和掃描技術(shù)的進(jìn)步,錄入速度大大加快。但主題標(biāo)引已成為建庫(kù)的“瓶頸”,加上主題表編制與管理技術(shù)的滯后,直接影響建庫(kù)的速度和質(zhì)量,難于滿足文獻(xiàn)檢索的需要。為此,張琪玉、侯漢清、張涵等國(guó)內(nèi)著名專家和同行都在探討解決的辦法,提出了一系列建議,例如大量編制自然語(yǔ)言詞表;設(shè)計(jì)分類表——敘詞表轉(zhuǎn)換系統(tǒng),實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下情報(bào)檢索語(yǔ)言兼容互換;利用主題表開發(fā)研制自動(dòng)標(biāo)引檢索系統(tǒng),實(shí)現(xiàn)自動(dòng)標(biāo)引等。這些建議都是有益的探索,對(duì)于地方研究文獻(xiàn)數(shù)據(jù)庫(kù)的建庫(kù)技術(shù)的改進(jìn)和提高有重要參考價(jià)值。

筆者從事地方研究文獻(xiàn)數(shù)據(jù)庫(kù)建庫(kù)工作多年,結(jié)合建庫(kù)實(shí)踐提出一點(diǎn)不成熟的看法。

三、地方研究文獻(xiàn)主題處理技術(shù)的改進(jìn)措施

文獻(xiàn)主題的處理技術(shù)可分為兩部分:一是主題標(biāo)引工作;二是詞表的編制與管理。

1.主題標(biāo)引工作

目前的文獻(xiàn)主題標(biāo)引工作人為因素太多。首先是標(biāo)引規(guī)則的限制,幾乎每個(gè)文獻(xiàn)數(shù)據(jù)庫(kù)都制訂主題標(biāo)引規(guī)則,內(nèi)容包括:選用的信息和標(biāo)引的內(nèi)容范圍;標(biāo)引深度(標(biāo)引多少主題詞,主題詞的漢字?jǐn)?shù)目限制等);標(biāo)引詞的選擇,主題標(biāo)引方式(自由標(biāo)引還是選用主題表);對(duì)文獻(xiàn)主題采用整體標(biāo)引或分析標(biāo)引;標(biāo)引詞的著錄方式;不同類型或題材、體裁文獻(xiàn)的標(biāo)引規(guī)則;人名、地名、時(shí)間因素等有關(guān)規(guī)定……為了保證同一主題標(biāo)引一致性,規(guī)則的制訂盡量詳細(xì)具體。這樣一來(lái),標(biāo)引人員工作時(shí)受到很大制約,需熟記標(biāo)引規(guī)則并按此處理文獻(xiàn)主題。標(biāo)引是為了檢索,然而如果表達(dá)文獻(xiàn)內(nèi)容遠(yuǎn)遠(yuǎn)超過標(biāo)引規(guī)則的規(guī)定(例如規(guī)定15個(gè)主題詞),不但造成標(biāo)引的困難,而且主題或標(biāo)引詞選取不當(dāng)將影響文獻(xiàn)的檢索利用。

其次是標(biāo)引人員對(duì)文獻(xiàn)內(nèi)容理解及主題分析等方面的限制,標(biāo)引規(guī)則要求標(biāo)引人員主題分析和給標(biāo)引詞等均應(yīng)考慮用戶的檢索需要和檢索習(xí)慣。事實(shí)上沒有一個(gè)標(biāo)引人員能夠全面了解用戶的檢索興趣和要求,更無(wú)法預(yù)計(jì)將來(lái)用戶的檢索興趣和要求。例如文獻(xiàn)中標(biāo)引人員可能認(rèn)為某一內(nèi)容不是中心內(nèi)容,論述或研究的主要問題不進(jìn)行標(biāo)引,可是這部分內(nèi)容對(duì)于某些用戶卻十分重要,在歷史研究或歷史人物研究等方面,往往根據(jù)文獻(xiàn)中的不顯眼的線索(幾句話或一張照片)溯根尋源,得出意想不到的收獲。

第三是主題的描述,由于主題表的使用和標(biāo)引規(guī)則(特別是組配規(guī)則等)的制訂,描述主題的詞語(yǔ)與文獻(xiàn)使用的語(yǔ)言、檢索者使用的詞語(yǔ)往往不一致,在同義詞和復(fù)合概念的表達(dá)方面尤為突出。當(dāng)前文獻(xiàn)量激增,文獻(xiàn)主題及用詞變化較大,增加了標(biāo)引工作的難度,影響主題標(biāo)引的速度和準(zhǔn)確程度。

因此,主題標(biāo)引工作的改進(jìn)勢(shì)在必行。對(duì)于地方研究文獻(xiàn)數(shù)據(jù)庫(kù)來(lái)源,全文檢索本身可自動(dòng)抽詞,二次文獻(xiàn)庫(kù)也可采用自動(dòng)(或半自動(dòng))抽詞與詞表調(diào)控相結(jié)合的方式,標(biāo)引時(shí)不硬性規(guī)定主題或主題詞數(shù)量,而是視文獻(xiàn)中具有檢索意義的內(nèi)容。所謂詞表調(diào)控,主要是語(yǔ)義控制和分詞的人工干預(yù)。

2.詞表的編制與管理

檢索詞和標(biāo)引詞的一致,同義詞的規(guī)范,以及主題的擴(kuò)檢功能是文獻(xiàn)數(shù)據(jù)庫(kù)檢索效率的重要保證。從這個(gè)角度考慮,詞表對(duì)于地方研究文獻(xiàn)數(shù)據(jù)庫(kù)仍是十分重要的。然而目前詞表的編制和管理技術(shù)已遠(yuǎn)遠(yuǎn)滿足不了建庫(kù)的要求,必須進(jìn)行改進(jìn)。

①改變?cè)~表內(nèi)容滯后于文獻(xiàn)主題發(fā)展的狀況

詞表的編制到出版使用需要一段時(shí)間,在我國(guó)詞表的修訂起碼經(jīng)過三五年時(shí)間,而文獻(xiàn)內(nèi)容隨著社會(huì)發(fā)展,學(xué)術(shù)研究的進(jìn)步變化很大。筆者1992年赴香港進(jìn)行文獻(xiàn)研究及編制港澳研究主題表達(dá)四個(gè)月,利用80年代至1992年香港報(bào)紙雜志收入主題詞3000多個(gè),以及數(shù)以千計(jì)的人名、地名等專有名詞。經(jīng)過檢驗(yàn)(詞頻統(tǒng)計(jì)),該表基本能滿足港澳研究文獻(xiàn)主題標(biāo)引的需要。然而在建港澳研究數(shù)據(jù)庫(kù)過程中,經(jīng)過三年左右,新增主題詞達(dá)2000個(gè),表中部分主題詞則甚少使用,說明香港、澳門社會(huì)發(fā)展對(duì)文獻(xiàn)主題的影響。因此需及時(shí)對(duì)主題詞表進(jìn)行調(diào)整,提高詞表的即時(shí)性。

主題詞的增刪調(diào)整可應(yīng)用統(tǒng)計(jì)方法加上人工干預(yù)。首先應(yīng)統(tǒng)計(jì)主題詞的使用頻率,同時(shí)考慮時(shí)間因素,因?yàn)槊恳坏貐^(qū)都有時(shí)效性很強(qiáng)的社會(huì)現(xiàn)象或信息,有的信息生命力很弱,主題標(biāo)引用詞的時(shí)效性也相應(yīng)很低。

②詞表管理技術(shù)主要是語(yǔ)義控制,例如全稱與簡(jiǎn)稱、外來(lái)語(yǔ)與中譯名、標(biāo)點(diǎn)符號(hào)的使用、同義詞和上下位概念的處理等。詞表管理應(yīng)有專人負(fù)責(zé)。筆者對(duì)港澳研究主題詞表的編制過程中,特別對(duì)同義詞和英漢對(duì)照的處理進(jìn)行大量工作,由于港澳方言特殊化,語(yǔ)詞規(guī)范顯得特別重要。

③詞表結(jié)構(gòu)的改進(jìn),詞表中相當(dāng)部分的主題詞比較穩(wěn)定,這部分詞應(yīng)作為第一層次(第一級(jí))的詞,不需經(jīng)常調(diào)整,對(duì)于有一定規(guī)模的數(shù)據(jù)庫(kù),第一層次的詞比較容易確定,應(yīng)作為規(guī)范化詞語(yǔ),第二層次(第二級(jí))的詞是有可能調(diào)整的詞,詞表管理人員應(yīng)及時(shí)對(duì)這一層次的詞進(jìn)行技術(shù)處理,例如與第一層次的詞作同義詞對(duì)應(yīng),或上下位屬的顯示等。

地方研究文獻(xiàn)數(shù)據(jù)庫(kù)的建設(shè),詞表(包括標(biāo)引技術(shù))、檢索軟件和索引是三個(gè)重要因素,其中文獻(xiàn)主題的處理技術(shù)對(duì)文獻(xiàn)檢索影響尤為突出。許多技術(shù)問題尚待改進(jìn)。

〔出處〕 一代宗師——紀(jì)念劉國(guó)鈞先生百年誕辰學(xué)術(shù)論文集



【地方研究文獻(xiàn)數(shù)據(jù)庫(kù)主題檢索初探】相關(guān)文章:

文獻(xiàn)檢索課學(xué)習(xí)心得04-20

文獻(xiàn)信息檢索心得體會(huì)03-21

文獻(xiàn)檢索課學(xué)習(xí)心得05-25

文獻(xiàn)檢索心得體會(huì)12-06

文獻(xiàn)信息檢索心得體會(huì)8篇03-23

文獻(xiàn)檢索心得體會(huì)8篇04-01

文獻(xiàn)檢索課學(xué)習(xí)心得體會(huì)08-22

文獻(xiàn)檢索心得體會(huì)(共15篇)08-10

文獻(xiàn)檢索心得體會(huì)錦集(6篇)09-30

語(yǔ)文研究性學(xué)習(xí)初探08-17