簡體書 » 史記字頻研究

史記字頻研究

定價：~~108~~ 元

NT $ 108

作者：李波
出版社：商務印書館
出版日期：2006-03-01
語言：簡體中文
ISBN10：7100045827
ISBN13：9787100045827
裝訂：302頁 / 21 x 18 cm / 普通級 / 初版

內容簡介

本書利用《史記》文獻語料庫和由語料庫得到的文獻數字化信息，全面描述並分析《史記》用字的量和位。

早在上個世紀80年代初期，我就著手籌划編纂《史記索引》。傳統的索引是依據選定的文獻底本，手工斷句，剪貼編排而成。燕京哈佛學社引得編纂處的那些引得，葉聖陶先生的《十三經索引》，都是手工編纂索引的先例。前輩編纂索引的經驗告誡我，人工為20萬字以上的文獻做詳盡的索引是異常困難的，手工操作必然產生的差錯率甚至會斷送千辛萬苦的努力。

計算機的使用給編纂大型文獻索引帶來轉機。當時在黑龍江計算機領域已經嶄露頭角的李曉光告訴我，使用計算機可以代替人工編纂詳盡的文獻索引。工作程序是先做計算機機讀本，制成數據庫，再進行一系列運算，而後即可完成編纂索引的工作。要給《史記》這樣一部大部頭的文獻編纂索引，就非得使用計算機不可了。那時，所能見到的只是相當原始的微型計算機。即使是那樣的微型機，輪到個人使用也很罕見。為了工作，我必須求得一台計算機，後來好友王新生竟然從一個小公司里借出來一台PC機為我專用。接著，我們尋求到了一塊漢卡，那是如今已經很少有人知道的「倉頡輸入法」專用卡。最初的機讀本《史記》就是借助倉頡漢卡實現的。在制作《史記》機讀本和對《史記》語言進行分析的時候，問題總是不斷地提出來，用東北話說是「零揪」，這對編程工作來說，無疑是反反復復的折磨。合作伙伴李曉光卻總是能在艱苦的條件下，對我提出的各種要求給出完滿的解決方案。當時微型計算機的處理速度和容量，與現在普遍使用的「奔4」相比可能相差千倍有余，處理《史記》這樣一個大部頭文獻，僅在計算機處理能力上的難度就可想而知了。

但是，對計算機的新鮮感和用計算機處理大型古籍的憧憬，驅使我們做成這件事。不懈的努力，終於有了回報，我們的機讀本《史記》和《史記》語料庫都達到了令人滿意的地步。1987年5月27日舉行的「使用IBMPC—XT微型電子計算機處理大型古代文獻——《史記》鑒定會」上，我們的工作得到專家們肯定。鑒定會在哈爾濱師范大學召開，邀請的專家有：郭錫良（北京大學教授，鑒定會主任委員）、吳幾康（中科院計算機研究所研究員）、劉涌泉（中國中文信息協會研究員）、呂冀平（黑龍江大學教授）、花柵（哈爾濱船舶工程學院教授）、郭福順（哈爾濱工業大學教授）、曹先擢（國家語言文字工作委員會研究員）、曹乃木（商務印書館編審）、傅永和（國家語言文字工作委員會副研究員）、葉長陰（哈爾濱師范大學教授）、劉伯文（黑龍江電子計算機服務公司工程師）、張晉梗（哈爾濱師范大學副教授）、李傳靖（黑龍江電子計算機服務公司工程師）、鄭繼志（黑龍江電子研究所工程師）。

鑒定會的成果報告、技術審查報告、用戶意見和鑒定證書都說明了這個成果的可靠性和先進性。專家們認為，在實現中文文獻檢索的現代化和計算機的功能開發方面，這項工作處於全國領先地位。鑒定會以後，《史記索引》順利出版了。這些成果，後來獲得了黑龍江省科委的計算機軟件獎、社會科學編著獎等獎項。

郭錫良先生在鑒定會座談時曾講，《史記》數據庫的實現，就像是挖到了一座金山，吃不完用不盡，對語言研究來說應該繼續往深里挖掘開發。我覺得可以把文獻語料庫比作冰山，當這座大冰山浮出水面以後，在語言學的研究領域中出現生機，語言各個層面的研究差不多都可以在語料庫的環境里實現。就《史記》研究而言，借助《史記》語料庫提供的大量的文獻數字化信息，以漢字為計量單位，可以極方便地從定量和窮盡兩個方面對《史記》作全面分析，進而對《史記》的語言開展多方面的研究，並獲取那些單憑抽樣調查不可能得出的結論。然而，這只是冰山的一角。文獻語料庫的出現，使語言研究領域中需要做的工作和能夠做的工作一下子增加了許多倍，包括綜合語料庫的建設，數據信息的提取，計算方法的探求，等等。

使用文獻語料庫作語言研究，要有與之相適應的方法。依據語料庫作研究總是要著眼全局，所研究的內容又具有很強的相關性，為了說明一個問題，必須給出多種量的證明，否則，就不可能發揮語料庫研究的優勢，不能稱其為語料庫語言研究。這樣，一部文獻的語料庫常顯得孤立無援，必須有多部文獻的語料庫才能互相輔證。所以這些年來我和幾個同志坐下來，試著先搞一些文獻語料庫，同時也在學習研究漢語文獻的運算方法，試圖在開發語料庫功能的同時解決老問題，發現新問題。

隨著工作的向前推進和計算機功能的急劇拓展，我們陸續研制出了多部文獻語料庫，包括十三經、前四史、《國語》、《戰國策》及《漢語大詞典》辭目語料庫等。利用文獻語料庫進行研究的成果之一，就是編纂文獻索引，多部索引已經由中國／「播電視出版社出版了。在出版這些索引的時候，我們總是從語言研究的角度考慮，不斷更新這些索引的格式和內容，讀者如果手頭有這些索引，按時間順序將其排列一下，加以比較，就會看到其中改進的情況。

本書的寫作，源於戴昭銘先生的建議。我本來想寫一篇文章來表述對《史記》字頻表的分析，介紹我們通過計算《史記》語料庫分析《史記》字表的方法和結論。戴昭銘先生認為，語料庫是有利於大家的東西，字表又是借助語料庫研究文獻語言的大綱，與其只介紹研究的方法，不如用一本小書把研究方法和研究的結果都公布出來，與研究《史記》的同仁共享。戴先生說得對。我把這個想法跟一些同志談過，他們都很贊同，還認為這項工作對一些大型文獻語料庫的研制和使用都會有意義。這部書講述了文獻語料庫的研制和在此基礎上所做的工作，公布了《史記》字表的各個字頻區的用字，並對其進行分析，闡述了字頻表的功能。這些工作是使用《史記》語料庫研究《史記》語言的一部分基礎工作。從長遠看，使用《史記》語料庫研究《史記》語言，還是使用文獻語料庫研究文獻語言的組成部分，是一項探索性很強的工作。對《史記》語言的深入研究，以及對文獻語言的研究工作，都需要更多的文獻語料庫；大型綜合文獻語料庫的研制和使用，應該從現在開展起來。

前言
第1章文獻語料庫和文獻的數字化信息
1.1 「例不十，法不立」的原則和窮盡性研究
1.2 文獻語料庫的品格和研制思路
1.3 漢字的計量優勢
1.4 《史記≯語料庫和文獻的數字化信息
1.5 文獻用字的坐標系
第2章《史記》語料庫的制作
2.1 文獻版本的選定
2.2 機讀本《史記》的制作
2.3 語言研究的配套程序
2.4 參比文獻語料庫
第3章《史記》分卷用字淵查
3.1 分卷研究的意義
3.2 《史記》130卷的分卷數據
3.3 《史記》130卷用字數據分析
第4章《史記》用字概況和字頻區的划分
4.1 《史記》用字的概況
4.2 《史記》語料庫的數據提取
4.3 《史記》字區的划分標准
4.4 《史記》的字區
4.5 《史記》與其他典籍數據的比較
4.6 《史記》與《十三經》、現代漢語字頻的比較
4.7 《史記》用字分類研究的方法
第5章《史記》核心字區的分析
5.1《史記》的核心字區
5.2 核心字的7種數據
5.3 數據和內容的討論
5.4 數據和內容的驗證
5.5 結論
第6章《史記》高頻字區的分析
6.1 《史記》的高頻字區
6.2 高頻字的7種數據
6.3 數據和內容的討論
6.4 數據和內容的驗證
6.5 結論
第7章《史記》中頻字區的分析
7.1 《史記》的中頻字區
7.2 中頻字的7種數據
7.3 數據和內容的討論
7.4 數據和內容的驗證
7.5 結論
第8章《史記》低頻字區的分析
8.1 《史記》的低頻字區
8.2 低頻字的7種數據
8.3 數據和內容的討論
8.4 數據和內容的驗證
8.5 結論
第9章《史記》罕用字區的分析
9.1 《史記》的罕用字區
9.2 一用字的7種數據
9.3 數據和內容的討論
9.4 結論
第10章《史記》的句長
10.1 《史記》斷句的依據
10.2 《史記》分篇的句長統計表
10.3 句長的有關數據
結語
參考文獻

看更多