漢字由于是開(kāi)放集合,數(shù)量并沒(méi)有準(zhǔn)確數(shù)字,日常所使用的漢字約為幾千字。
漢字?jǐn)?shù)量的首次統(tǒng)計(jì)是漢朝許慎在《說(shuō)文解字》中進(jìn)行的,共收錄9353字。其后,南朝時(shí)顧野王所撰的《玉篇》據(jù)記載共收16917字,在此基礎(chǔ)上修訂的《大廣益會(huì)玉篇》則據(jù)說(shuō)有22726字。此后收字較多的是宋朝官修的《類篇》,收字31319個(gè);另一部宋朝官修的《集韻》中收字53525個(gè),曾經(jīng)是收字最多的一部書(shū)。近代編集的字典收字量更高,如清朝的《康熙字典》收字47035個(gè);臺(tái)灣的《中文大字典》收字49905個(gè);大陸的《漢語(yǔ)大字典》收字54678個(gè);最新的《中華字?!肥兆?5568個(gè),包含了《漢語(yǔ)大字典》、《中文大字典》、《康熙字典》和《說(shuō)文解字》的所有收字;日本的《大漢和字典》收字48902個(gè),另有附錄1062個(gè)。21世紀(jì)已出版的字?jǐn)?shù)最多的是日本《今昔文字鏡》,收字17萬(wàn)個(gè)。20世紀(jì)所新創(chuàng)的,還有第一批簡(jiǎn)化字后跟第二批的“二簡(jiǎn)字”,其中也包括社會(huì)上不少人造的文字,不過(guò)二簡(jiǎn)字已被大陸官方廢除,只有少數(shù)字在社會(huì)上流行,但現(xiàn)時(shí)并沒(méi)有于計(jì)算機(jī)編碼中被收錄。在漢字計(jì)算機(jī)編碼標(biāo)準(zhǔn)中,目前最大的漢字編碼是臺(tái)灣的國(guó)家標(biāo)準(zhǔn)CNS11643,目前(4.0)共收錄可考證之正簡(jiǎn)、日、韓語(yǔ)漢字共76,067個(gè),在戶政系統(tǒng)等官方機(jī)構(gòu)普遍使用。臺(tái)灣及港澳地區(qū)民間通用的大五碼收錄繁體漢字13053個(gè)。GB 18030是中華人民共和國(guó)現(xiàn)時(shí)最新的內(nèi)碼字集,總共收錄70244個(gè)漢字;GBK收錄簡(jiǎn)體、繁體及日語(yǔ)、韓語(yǔ)漢字20912個(gè),而早期的GB 2312收錄簡(jiǎn)體漢字6763個(gè)。而Unicode的中日韓統(tǒng)一表意文字基本字集則收錄漢字20902個(gè),另有四個(gè)擴(kuò)展區(qū),總數(shù)亦高達(dá)七萬(wàn)多字。初期的漢字系統(tǒng)字?jǐn)?shù)不足,很多事物以通假字表示,使文字的表述存在較大歧義。為完善表述的明確性,漢字經(jīng)歷了逐步復(fù)雜、字?jǐn)?shù)大量增加的階段。過(guò)去在漢字組成基本因子(前述字根部件)研究與教學(xué)上落后,造成學(xué)習(xí)上必須逐字學(xué)習(xí)難以舉一反三,漢字?jǐn)?shù)量越多學(xué)習(xí)越困難,組建新字的風(fēng)氣日趨保守,也沒(méi)有相應(yīng)的信息處理技術(shù),于是有許多單一的漢語(yǔ)義義是以詞表示,例如常見(jiàn)的雙字詞,所以近代書(shū)寫(xiě)的發(fā)展多朝向造新詞而非造新字。漢字字位(或者叫“字素”、“字種”)是指將同一個(gè)字的不同寫(xiě)法(繁體字、簡(jiǎn)體字、二簡(jiǎn)字、正體字、異體字、新字形、舊字形、訛字、缺筆字等)計(jì)算為同一個(gè)字,而不是分別計(jì)算為不同的字。例如:“夠”和“夠”被視為同一個(gè)漢字的不同字位變體,而不是兩個(gè)漢字。這一計(jì)算方法與英文類似,A與a寫(xiě)法不同,但只是一個(gè)字母,英語(yǔ)一共26個(gè)字母,而不是52個(gè)。根據(jù)統(tǒng)計(jì),漢字字位數(shù)量大致在26500左右。后來(lái)編纂的字典所收的字越來(lái)越多,實(shí)際上增加的絕大多數(shù)是字位變體而不是字位。收字42174個(gè)的《康熙字典》僅僅比收字85568個(gè)的《中華字海》少1000個(gè)左右的字位。