北京口語語料查詢系統

北京口語語料查詢系統

為了讓更多的人能夠便捷地利用“北京口語語料”進行查詢和研究,北京語言大學語言研究所在“北京口語語料”的基礎上開發出了“北京口語語料查詢系統”(簡稱“BJKY”)。在北京語言大學領導的支持下,現決定把網路版完全公開,供免費使用。該系統由劉曉海負責研製。

北京口語語料

北京1981年,北京語言學院(今北京語言大學)來華留學生一系開始實施“北京口語調查”研究課題。1984年,該課題轉由北京語言學院語言教學研究所負責。1986年和1987年,該課題先後被列入國家教委博士點基金項目和國家哲學社會科學“七五”規劃重點科研項目。1992年通過專家鑑定。該課題先後由宋孝才、呂必松、任遠、常寶儒擔任負責人,由劉傑、常寶儒主持日常研究工作。
“北京口語調查”課題採用談話和錄音的方式,按照社會語言學的抽樣原則,在北京城區和郊區共調查了近500個在北京生長的人,得到錄音磁帶共210盤。課題組經審查確定其中374人120盤錄音帶的材料為有效材料。課題組對這374人120盤錄音帶的材料進行整理加工,取得了剪輯錄音帶、轉寫文本、語料庫等一系列成果。
經過多年輾轉,課題組當年未處理的約100多人(除了374個有效說話人以外的調查對象)的90盤(210-120=90)錄音帶,除了6個說話人的錄音材料以外,下落不明。在已處理的374人120盤錄音帶中,有1盤(4個說話人)的聲音材料已經完全損壞,今存370人119盤錄音帶。精加工的102人的40萬字轉寫文本今存有電子檔案及其列印件。其餘272人的130萬字轉寫文本的電子檔案下落不明,只有列印件。帶詞性標註的檔案下落不明,帶漢語拼音標註的檔案顯示為亂碼,已無法使用。語料庫在現在的電腦系統里已無法使用。
北京語言大學語言研究所自2001年建立以來,把重建完整、科學、實用的“北京口語語料”作為一項重要工作。2004年,“當代北京話套用研究”課題(曹志耘主持)獲得北京市哲學社會科學“十五”規劃項目立項。在隨後的幾年裡,課題組開展了下列工作:清理舊資料,錄入無電子檔案的語料,聽錄音校對文字,重新統一編排,把錄音帶轉為數字形式,進行話語分析標註和語音特徵標註,建立“文本-聲音”連結,試用檢索軟體,等,最終建成完整版“北京口語語料”,並完成一批相關成果。完整版“北京口語語料”的基礎語料包括:(1)由370人119盤錄音帶轉換成的有聲語料檔案(wav格式),(2)與錄音檔案相對應的184萬字的轉寫文本(word檔案。其中有4人的語料缺錄音)。承擔上述工作的,除了曹志耘以外,還有周晨萌、李鹹菊、劉曉海張世方、張燕來、黃曉東解正明王莉寧等人。

北京口語語料查詢系統

“北京口語語料查詢系統”(BJKY)包括上述184萬字據錄音轉寫、校對、整理後的北京口語語料,目前主要有以下功能:
1.依據說話人的屬性和話題,查詢某一字、詞、短語或結構在北京口語語料中的使用情況。說話人的屬性包括出生年份、性別、民族、地區、文化程度、職業,話題包括居住條件、家庭、學習、工作、生活、個人經歷等。2.查詢結果既顯示語料,又顯示說話人的屬性和話題。
3.可以對查詢結果進行自定義排序,系統默認依次按照出生年份、性別、民族、文化程度排序。
4.可以對查詢結果進行相關統計。
由於本語料未經分詞處理,使用者對查詢結果中的語料需進行甄別處理。
“北京口語語料查詢系統”(BJKY)日前已在北京語言大學語言研究所網頁上正式發布,具體使用方法見該網頁上的說明。

相關詞條

熱門詞條

聯絡我們