布朗語料庫

布朗語料庫,第一個機讀語料庫,也是第一個平衡語料庫。

定義

布朗語料庫(Brown Corpus)在一九六0年代 中期構建的一個具代表性的平衡語料庫包含各種不同的文體,根據抽樣調查決定了一個他們認為英文平衡語料庫應有的分布,再根據此一分布收集了百萬詞的語料,並加上詞類標記,輸入電腦。建構成了第一個機讀 語料庫,也是第一個平衡語料庫。儘管由現在理論及技術的水準看來,布朗的資料及平衡方式略嫌粗糙,可是這個語料庫一直是 (英語) 平衡語料庫的標準,甚至到了八十年代新構建的英語平衡語料庫如lob(Lancaster-Oslo/Bergen,英國英文)及London-Lund(英語口語),都還遵循布朗語料庫的架構。足見這種平衡語料庫在各種語言學研究上有其不可取代的價值。[3.]布朗語料庫收集了500個連貫英語書面語,文本每個文本超過2000詞,整個語料庫約一百零一萬四千三百詞。

參考文獻

http://clwww.essex.ac.uk/w3c/corpus_ling/content/corpora/list/private/brown/brown.html

相關詞條

熱門詞條

聯絡我們