CCL語料庫由北京大學(xué)中國語言學(xué)研究中心(Center for Chinese Linguistics PKU)開發(fā),期間得到了北京大學(xué)計算語言學(xué)研究所、中科院計算技術(shù)研究所等單位同仁的大力支持和幫助。
CCL語料庫及其檢索系統(tǒng)為純學(xué)術(shù)非盈利性質(zhì),語料庫中的中文文本未經(jīng)分詞處理,檢索系統(tǒng)以漢字為基本單位。主要功能特色在于:支持復(fù)雜檢索表達式(比如不相鄰關(guān)鍵詞查詢,指定距離查詢,等等);支持對標點符號的查詢(比如查詢“ ”可以檢索語料庫中所有疑問句);支持在“結(jié)果集”中繼續(xù)檢索;用戶可定制查詢結(jié)果的顯示方式(如左右長度,排序等);用戶可以從網(wǎng)頁上下載查詢結(jié)果(text文件)。 CCL漢語語料庫總字符數(shù)為783,463,175,其中現(xiàn)代漢語語料庫總字符數(shù)為581,794,456。