학술지 검색
Download PDF Export Citation Korean Bibliography PMC Previewer
ISSN : 2982-4737(Print)
ISSN : 2982-4745(Online)
Journal of Applied Studies on Sinograph and Literary Sinitic Vol.2 No.1 pp.1-24
DOI : https://doi.org/10.36523/HERC.2023.2.1

Research on Chinese Character Grading of Ancient Books for Reading Ancient Texts*

Minxuan Feng**, Xue Yu**, Changwei Xu****, Bin Li*****

* 이 글은 중국 국가언어문자사업위원회의 프로젝트 “고대 중국어 읽기 및 쓰기 능력을 위한 고대 중국어 등급 한자표 연구” (yb145-41)와 선전 애열기금회의 지원을 받았다.




* 本文受到国家语委项目“面向古文读写能力的古汉语分级字表研究”(编号:YB145-41)和深圳爱阅基金会的资助。




* This paper was supported by the project "Research on Graded Characters of Ancient Chinese for Ancient Literacy" of the State Language Commission (No. : YB145-41) and Shenzhen Love Reading Foundation.


20230830 ; 20231210 ; 20231222

Abstract


The ability to read and write ancient Chinese is the basic skill to spread the excellent traditional Chinese culture. At present, there are three major problems in ancient Chinese teaching: low efficiency, high threshold and weak pertinence. Fear of reading ancient Chinese, fear of ancient Chinese is a real problem encountered by many young people. According to the characteristics and actual situation of ancient Chinese teaching and learning, this study selects 1000 Chinese characters based on the statistics of large-scale ancient books corpus, and designs the grading features from four perspectives of font, character sound, character meaning and character usage. According to the different learning priorities of each Chinese character, the "Grading Table of Ancient Chinese Characters" is developed. This list contains 105 first-level characters, 340 second-level characters and 555 third-level characters, which can provide literacy materials for young people to learn ancient Chinese, help young people gradually master ancient Chinese characters, reduce the burden of learning ancient Chinese, improve ancient reading ability, and help the inheritance and dissemination of excellent traditional Chinese culture.



고문읽기를 위한 고적한자등급 연구*

풍민훤**, 여설**, 허장위****, 리빈*****
**제1저자, 남경사범대학 문학원 부교수, 남경사범대학 언어 빅데이터 및 계산 인문연구센터 / E-mail: fengminxuan@njnu.edu.cn
***공동저자, 남경사범대학 문학원 석사연구생 / E-mail: morii107@163.com
****공동저자, 남경사범대학 문학원 석사연구생 / E-mail: changweixu36@gmail.com
*****교신저자, 남경사범대학 문학원 교수, 남경사범대학 언어 빅데이터와 계산인문연구센터 / E-mail: gothere@126.com

초록


고문읽기와 쓰기는 우수한 중국 전통 문화의 계승과 발전을 위한 기초 능력이다. 현재 고문 교육은 학습 효율이 낮고, 문턱이 높으며, 목적성이 부족하다는 세 가지 문제점이 존재한다. 고문읽기와 고문자에 대한 두려움은 많은 청소년들이 맞닥뜨리고 있는 실제 문제이다. 본 연구는 고대 중국어 교육의 특징과 실제에 근거하여 대규모 고적 코퍼스의 통계 작업을 통해 1,000개의 한자를 선정하였다. 한자의 자형, 자음, 자의, 용자 네 가지 측면에서 각 등급별 기준을 설정하고, 한자 학습의 우선순위를 반영하여 「고적한자등급자표古籍汉字分级字表」를 개발하였다. 이 표 에는 1급 105자, 2급 340자, 3급 555자를 수록되어 있다. 청소년에게 고문 학습을 위해 한자학습 자료를 제공하는 것은 고적 한자의 점진적 학습을 도울 뿐 아니라 청소년이 가지고 있는 고문 학습에 대한 부담감을 줄여주고 고문 읽기 능력을 향상시켜 줄 것이다. 더 나아가 중국의 우수한 전통 문화를 계승하고 발전시키는 데 도움을 줄 것으로 기대한다.



    Ⅰ. 引言

    古籍是中华优秀传统文化的重要载体, 是中华民族的宝贵精神财富。如何促进古籍文献阅读 是值得思考的问题。教育部语信司田立新司长指出, 语言文字承载着历史脉络和文明递嬗, 蕴藏 着中华民族的理想信仰、价值理念、道德观念和民族精神。语言文字作为连接古籍与弘扬中华 优秀传统文化的纽带, 需要我们搭建好古籍通往当代受众的桥梁。

    青少年是弘扬中华优秀传统文化的生力军, 如何提升青少年阅读古文的效度是需要探讨的问 题。目前古文教学存在效率低、门槛高、针对性弱等问题。怕读古文, 怕古文字是很多青少年遇 到的实际问题。古文教习仍以“书读百遍其义自见”为主要方法, 重记忆, 轻方法, 学习效率低 下。以王力《古代汉语》为代表的高质量教材, 主要面向高中以上水平读者, 不适合初学者, 门 槛过高。当前, 社会上十分缺乏针对青少年初学者的古文教学资源与评测方法。广大教师和学 生也呼唤高效的古文学习材料和方法, 特别是古文中的汉字学习问题。

    大量研究表明, 识字在个体发展和语言教育教学中起着非常重要的作用1)。识字是阅读的基 础, 学生必须掌握一定数量的汉字, 才能开始阅读2)。因此, 在阅读教学之前往往先进行识字教 学, 在较短的时间内集中识字教学, 让学生尽快通过“汉字关”3)。那么古汉语到底有多少常用 字?哪些字需要先学?哪些后学?哪些是不同于现代汉语的特色字?哪些古文比较简单, 适合入 门?如何循序渐进地学习?都需要进行系统地研究。分级字(词)表研究是解决上述问题的可行 路径。字(词)表是指为专门目的而研制的特定字(词)集合, 对学习用字的掌握具有重要意义。最 早的词表研制始于20世纪30年代美国, 研究者将那些几乎在所有阅读材料中都出现的词, 汇集成 核心词表优先教学, 使儿童的阅读更容易4)

    我国历来就有确定常用字表的传统, 孙钧锡5)在《中国汉字学史》中指出:“过去各个朝代编 撰或流行的识字书, 可以认为是当时的‘常用字表’。”作为我国古代最负盛名的蒙学教材, 《三字 经》《百家姓》《千字文》(简称“三百千”)选取了当时的常用汉字供儿童集中学习6), 具有重要 的价值, 但这些识字教材通常由专人或专门机构编写, 汉字的选取主要依靠个人经验或集体智慧, 而非基于大规模的语料统计, 存在一定的主观性和局限性。

    常用字的科学统计研究始于20世纪20年代。陈鹤琴7)在1928年出版了一本名为《语体文应用 字汇》的书, 其中统计了白话文中汉字的使用频率。这本书是我国第一部现代汉字字频统计专 著, 为汉字的计量研究做出了重要的贡献8)。1988年, 国家语委成功地制定了《现代汉语常用字 表》, 这标志着当代常用字表研究达到了一个关键的里程碑。《现代汉语常用字表》总共收录了 3500个字, 这些字被分为2500个常用字和1000个次常用字。《现代汉语常用字表》在选字原则 上, 优先选择使用频率较高的字, 而在使用频率持平的前提下, 则优先选择学科分布广泛、使用 频率高的字, 同时也充分考虑了汉字在构字和构词方面的能力。在大规模现代汉语语料的基础 上得出《现代汉语常用字表》是语言文字规范的重要文件, 自发布以后, 在现代汉字规范化方面 起到了重要的作用。《现代汉语常用字表》也成为基础教育领域中小学生识字的重要材料。此 后研制的《通用规范汉字表》给一级字表明确定位:主要满足基础教育和文化普及层面的用字 需要。教育部在制定《义务教育语文课程常用字表》(以下简称《常用字表》)时, 吸纳了《通用 规范汉字表》中一级字表的研究成果, 收录了常用汉字3500字, 其中的 2500个常用字和1000个 次常用字分别作为小学阶段以及初中阶段识字、写字教学评价的依据。另外, 还附发了《识字、 写字教学基本字表》, 共有300个基本字, 是小学第一学段教科书识字、写字教学的重要内容。 除常用字表外, 面向不同应用领域的专业字表也层出不穷, 且兼顾了分级需要。

    但是, 上面提到的字表都是基于现代汉语的语料库构建的, 主要用于义务教育的识字教学、 对外汉语教学和汉字应用水平的测试。多项研究指出, 现代文和古文在用字上存在显著差异, 尤 其是在汉字的出现频率、文本的分布以及累计使用频率上9)。此外, 随着现代教育改革进程不断 深化, 国家对古代文化典籍的传承与传播力度逐步加大。在最近几年, 受到相关政策建议的推动, 中国的传统古文经典在中小学的语文教学中被广泛采用作为教学材料, 并逐渐形成了“古为今用” 的局面。与此同时, 随着中华经典古文作品被纳入部分省中高考的考试内容, 一些经典古文已经 变成了中小学教育的必学内容。

    现有的面向青少年识字学习的材料主要还是《常用字表》, 但这个字表是否适用于古文学习 呢?对此, 本文对部编版中小学语文教材中出现的古文单次字(即在教材古文中只使用一次的字) 进行了考察, 发现在331个古文单次字中, 有121个不见于《常用字表》, 占古文单次字总数的 36.56%, 属于超纲用字。

    这些超纲的古文用字无疑加重了学生在古文学习过程中的认读压力。同时, 对于一些古文教 学中经常使用的古文字, 教师也往往不能很好地掌握其用法, 导致学生在阅读时产生偏误。对于 不适应当前学段的古文字的认知和学习, 这不仅会给学生带来不小的学习困难, 还可能会使学生 降低或丧失对汉字学习的兴趣。另外, 《常用字表》本身也有其局限性:它仅对字量进行了限 制, 在识字教育中对字序和字级的处理上仍显得模糊和笼统。因此, 目前学界关于如何编写实用 有效的小学语文专用分级字表仍没有达成共识。随着识字教习的发展, 相关学者呼吁构建分级 字表来辅助识字, 周美玲10)指出儿童识字教学应该有适合儿童认知、学习的字表, 研制专供基础 教育教材使用的常用分级字表成为当务之急。

    然而, 古文字表的研究主要集中在专书的字词上, 例如对《急就篇》11)、《诗经》12)、《孟 子》13)等经典文献的词汇统计和分析。这些文献中没有明确区分出不同等级的汉字, 很难从整 体上把握汉字难易特点。虽然存在一些高品质的古文字典, 例如《古汉语常用字典》, 但字典并 不是分级字表, 更倾向于收字全面, 收字量大。因此, 本文提出建立面向青少年古文阅读的分级 字表, 基于大规模古籍文本语料库, 构建古籍汉字常用字表, 挖掘古籍汉字分级特征, 研制包含字 级字序的《古籍汉字分级字表》, 供学习者循序渐进地学习, 排除古文学习障碍, 提升古文阅读 兴趣, 解决青少年在古文读写教育方面的切实需求, 进而有效促进中华优秀传统文化的继承与发 展。

    Ⅱ. 《古籍汉字常用字表》的研制

    1. 基于《四库全书》选字种

    字表的研制, 需要依托语料库完成, 语料库设置需充分代表语言使用的广泛性。Biber14)的语 料库研究表明, 字表构建所使用的语料库应包含不同题材、不同类型的文本, 防止某一种文本的 偏差产生不良影响。同时, 使用语料的时间跨度也要足够长, 以减少单独某一时期特色词和高频 词的负面效果。

    古籍汉字分级的研究主要有两个服务目标:一是促进古籍文献在当代的传播;二是为青少年 阅读古文排除障碍。因此, 在选字语料方面既要兼顾通用古籍阅读, 又要方便青少年古籍汉字的 认读, 所以, 本文暂时不考虑分朝代研制字表。另外, 从筛选阅读材料方便的角度, 并考虑到题材 的多样性和时间跨度, 本文选择文渊阁的《四库全书》作为语料来源, 构建了一个包含3408个古 籍文本、25277个字形和731852425个字例的语料库, 从宏观层面分析《四库全书》常用汉字使 用特点与规律, 以供字表的研制。《四库全书》被广泛认为是传统文化的经典之作, 是古代文献 的重要来源15)。《四库全书》分为经、史、子、集四大部分, 内容和体裁都非常丰富和多样。利 用它作为统计语料, 可以避免单一文本类型对选字的不良影响。此外, 《四库全书》还整合了清 代乾隆之前各个朝代的主要文化古籍, 考虑了不同时期的用字情况, 从而避免了仅根据某一时期 的用字情况来选择常用字的限制。

    2. 参照教学定字量

    研制《古籍汉字常用字表》的目的, 是为了让青少年在学习古文用字时能够做到急需先学、 由浅入深。衡量一个字有用性的重要指标是字频16), 即这个字在语言使用中出现的频率。齐夫 定律表明, 在英语单词中, 只有极少数的词经常使用, 绝大多数词使用的很少17)。对《四库全 书》前N高频字型进行文本覆盖率测试, 可以发现其用字同样符合这一规律。

    由表4可知, 《四库全书》中前1000高频字型能实现对整个语料82.1%的覆盖, 而前 4000高频 字型也只能使覆盖率达到98.0%。另外, 古代识字教材“三百千”所收字型数均不超过1000, 并且 本文还统计了江苏省南京市中考古文用字情况, 结果表明古文字种数为987, 也不超过 1000 字。 因此, 本文认为古籍汉字常用字表收字量为 1000 字, 并将《四库全书》内字频排名前1000的字 型选入《古籍汉字常用字表》进行考察, 作为构建分级字表的初步尝试。

    Ⅲ. 古籍汉字常用字优先级判定

    1. 基于汉字属性设计分级特征

    给古籍汉字分级是为了确定每个汉字的学习优先级别, 解决先学哪些字、后学哪些字的问 题。在识字教学中, 需要考虑多种因素, 不仅包括字频, 还要结合汉字的特点, 合理地设计学习顺 序, 实现“急需先学、先易后难、由浅入深、循序渐进”的原则18)。因此, 必须确定《古籍汉字常 用字表》中各汉字的学习优先级别, 制定分级字表, 以期实现事半功倍的学习效果。

    汉字作为记录汉语的符号, 既具有读音和意义, 又具有独特的字形形态。因此, 在设计汉字分 级计量特征时, 需要考虑字音、字义和字形特征。同时, 作为交际工具, 某些汉字在交际中使用 频率较高, 而其他汉字使用频率较低19), 所以, 在进行分级时, 还需要考虑汉字在实际应用中的情 况。现在, 本文将对各个层面的分级特征和学习优先级别的赋予进行说明。在最终确定汉字等 级时, 各分级特征并不是孤立存在的, 而是需要综合分析考量。

    1) 选取字频、使用度、构词能力作为字用层面特征

    依据字频排序, 字频排序越靠前, 该字越常用, 应当优先学习。李国英、周晓文20)综合前人研 究把汉字字频定义为“个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之 比。”字频反映了一个汉字的常用度, 在之前的工作中, 我们把字频排名前1000的字型选入了《古 籍汉字常用字表》。现把它们平均分为五组, 各组的字频排名分别为1-200、201-400、401-600、 801-1000。分别赋予每组汉字5、4、3、2、1 的学习优先级别, 字频越靠前的, 优先级别越高, 学习 优先级别由5到 1递减。

    基于汉字使用度, 使用度越高, 分布越均匀, 学习优先级别越高。在判断一个字是否经常被使 用时, 我们不能仅仅依赖于字频, 还需要考虑它的实际应用范围。当一个字在文本中出现的数量 较多时, 这意味着它的分布是均匀的, 并且应用范围很广;反之则分布不均, 使用面窄。我们用 “使用度”来表示汉字这一特征, 其计算公式为:

    使用度 某字型出现的文本个数 总文本个数

    使用度越高, 则该字型使用面越广, 越需要优先学习。对1000字的使用度进行计算, 结果如表 5所示, 绝大多数汉字的使用度都在0.8以上, 占比达92.2%, 这些汉字分布均匀, 使用面广, 只有极 个别汉字使用度在0.6以下, 使用面较窄。

    确定汉字学习顺序, 需优先学习使用度高的汉字, 因此需根据使用度对汉字进行分组, 赋予各 汉字不同的学习优先级别。由于1000字的使用度数值并非连续分布的, 在[0.43,0.57]这一区间出 现空缺, 如果人工对其进行分组, 各组别的取值范围将难以确定。因此, 我们采用聚类分析的方 法自动分组。聚类作为一种自动化程度较高的无监督机器学习方法,对某一具体的任务来说, 分 析之前数据所属的类别是未知的, 聚类的目标就是将数据划分到不同类别中, 同一个类中数据相 似, 不同类间数据相异。

    如表6所示, 以使用度数值为标准, 采用 K-means 的聚类方法对1000字进行5组聚类, 1000 字 被划分到不同类别中。各组的取值范围分别是[0.36,0.43]、[0.57,0.77]、[0.77,0.86]、[0.86,0.9 3]、[0.93,1], 可见, 聚类分析充分考虑到使用度数值在[0.43,0.57]这一区间缺失的特征, 未将分组 端点值选取在这一区间内。使用度越高的汉字越需要优先学习, 据此赋予各组汉字 5、4、3、 2、1 的学习优先级别。

    依据构词能力统计汉字构词数量, 数量越多学习优先级别越高。汉字的构词能力是指汉字能 否与其他汉字组合构成新词的能力, 常用汉字参与构词的数量来衡量21)。在考虑选择哪些汉字 作为基础汉字时, 除了要考虑字频外, 还要考虑汉字的构词能力22)。从使用角度来看, 一个汉字 的构词能力强, 则说明该字具有较强的实用性和组合能力, 应当优先学习。

    考察古籍汉字的构词能力, 首先需要对古籍文本进行分词, 构建词表。本研究选用程宁等23) 的古汉语一体化词法分析软件对《四库全书》文本进行分词处理工作, 该软件分词 F1值达到 85.73%, 效果较好。

    由于《四库全书》文本数量众多, 如果对所有的文本都进行分词, 需要耗费大量时间, 同时增 加后期统计难度, 因此, 我们采用随机抽样的方法从3408个文本中选取了200个文本进行分词, 获 得包含 270034个词型的词表, 借助该词表考察1000字的构词能力。

    尽管古汉语词汇具有以单音节词为主的特点24), 但分词结果表明, 《古籍汉字常用字表》选 取的1000字, 除了可以单独成词外, 绝大多数还可以与其他字组合构成新词。因此, 在学习古汉 语时, 要特别注意字义上的联系, 一旦掌握了构词能力较强的字, 就能更容易地识别和理解改字 所构成的词汇。掌握了构词能力强的字, 便很容易认读理解它们组成的词语。以“王”为例, 其参 与构词有“楚王”、“国王”、“鬼戎王”等, 学习者在习得“王”字的基本语义及用法后, 在古籍阅读 中, 无论是遇到“君王”、还是“淮南王”, 皆可推测其表示某君主或诸侯王。因此, 构词能力也被视 为一个确定学习优先级的重要标准。

    2) 选取结构、部首、笔画作为字形层面特征

    汉字构形学与汉字习得规律密切相关, 在汉字教学和汉字习得研究中有很强的实用性25)。字 形认知对汉字的识别与记忆以及阅读都起着至关重要的作用。因此, 本文从分析汉字的构形出 发, 探讨字形认知的心理机制与汉字学习之间的关系。

    依据字形结构, 独体字、左右结构、上下结构以及包围结构的汉字学习优先级别依次降低。 不同于线性排列的拼音文字, 结构方式是汉字字形的重要特征, 对汉字及其部件认知有一定的影 响, 彭瑞祥等26)在母语者辨认不同结构汉字的研究中发现, 左右(横向)结构字的再认率明显高于 其他结构字, 横向结构对于母语者来说最容易掌握, 半包围结构的字较难再认;喻柏林等27)证明 在心理切分上, 上下结构字要极大地难于左右结构字。

    对1000字的字形结构信息进行统计, 发现主要分为两大类:由单个部件构成的独体字和由多 个部件构成的合体字, 合体字可以分为:左右结构(包括左中右结构)、上下结构(包括上中下结 构)、包围结构(包括全包围结构、半包围结构), 根据前人对不同结构汉字识别难度的研究, 我们 分别对1000字赋予结构学习优先级别, 难度低的, 学习优先级别较高,独体字、左右结构、上下结 构和包围结构的汉字, 学习优先级别分别为 4、3、2、1。

    基于部首构字能力, 部首构字数量越多的汉字, 越应当优先学习。不同的部首具有不同的构 字能力。构字能力强的部首, 如“氵”, 具有较多的同部首字, 如江、河、湖、海。因此, 在掌握 “氵”一个部首后, 相当于对多个该部首字有所了解。

    对1000字进行分析, 共得到192个不同的部首, 其中, 29.7%的部首只能构成单个汉字, 构字能 力最弱, 50.5%的部首构字数不超过2个, 构字数量超过10个的部首较少, 约占部首总数的10%, 在 所有部首中, 构字能力最强的是“口”, 构字数多达43个。

    对于那些包含强构字能力部首的汉字, 应优先学习, 例如部首为“言”的汉字“謂”、“諸”、“記”, 在学习它们时, 可以联想到其同部首字, 加深印象, 降低记忆负担28)。以构字数量为标准, 对得到 的192个部首进行聚类, 分为五组, 对包含对应部首的汉字赋予了不同的学习优先级别。

    基于笔画数效应, 一个汉字笔画数量越多, 字形越复杂, 学习难度越大, 应推迟学习。合体字 由部件构成, 独体字由笔画构成, 但不论是合体字还是独体字, 均可以分析到笔画。不同于拼音 文字有长度上的差异, 一个汉字无论简单还是复杂, 都只占据一个方块的书写空间, 其不同往往 体现在笔画上。因此, 笔画是汉字的最小结构单位。汉字笔画的多少, 标志着该字视觉形状上的 复杂程度29)。不少研究表明, 汉字的笔画数影响汉字识别, 即存在笔画数效应, 如曹传咏和沈 晔30)。叶重新和刘英茂31)认为多笔画字的认识阈最高, 最难认识, 中笔画字次之, 少笔画字认识 阈最低。由此, 我们推断:对于一个汉字, 其笔画数越多, 则该字难度越大。

    利用汉典网32), 借助python对1000字的笔画信息进行获取, 分析得到笔画数量分布图:

    从字形上看, 笔画数越少的汉字越简单, 越应优先进行学习, 而笔画数多的汉字, 书写较复杂, 学习顺序应靠后。

    3) 选取读音数量作为字音层面特征

    依据汉字读音数量, 多音字发生误读而理解错误的可能性相较于单音字更大, 因此多音字应 推迟学习, 学习优先级别较低。杨华33)发现, 多音字读音数量上的差别不是造成其误读的主要原 因, 不同读音语用频率的差别才是影响其误读的主要因素。因此, 从字音层面考虑多音字学习优 先级时, 不仅要考虑其读音数量, 还要考虑其读音的语用频率。

    对1000字的读音数量进行统计, 我们发现绝大部分汉字为单音字, 占比80.1%, 在多音字中, 双 音字占比最高, 为16.5%, 三音字等总计占比3.4%。将单音字放在多音字之前学习是合理的, 但多 音字该如何处理呢?由于目前尚不能获得多音字中不同读音的语用频率, 我们采取简化标注方 案, 不考虑多音字的读音数量对学习优先级别的影响, 直接将汉字分为单音字和多音字, 其中单 音字的学习优先级别为2, 多音字的学习优先级别为1, 由此获得1000字在读音数量这一层面的学 习优先级别。

    4) 选取词性、义项作为字义层面特征

    依据字的词性(用法)标签, 用法标签越多意味着使用范围越广, 应优先学习。古代汉语的词汇 主要以单音节词为主, 从符号书写的视角看, 每一个词汇都可以被视为汉字。因此, 每个汉字都 有它独特的意义, 也就形成了它们不同的读音与写法。字典里的这些汉字不只是解释了它们的 意义, 还明确标注了它们的词性和使用方式。由于汉语在形态变化上的缺失, 它的词类与句法元 素之间并没有直接的对应关系。一个汉字常常带有多种词性或用法的标签, 这些标签为我们汉 字分级提供了关键的参考依据。

    通过分析汉典网上的“國語辭典”对汉字的解读, 我们成功地获取了1000字的词性(用法)标 签。这些词性(用法)标签被分为名、动、形、代、副、叹、连、助、缀这10个类别。一个汉字的 词性(用法)标签数量越多, 意味着其使用方法也越广泛。在实际应用中, 这个字可以扮演多种角 色, 因此应当被优先考虑学习。

    依据义项数量, 数量越多表明字义越丰富, 应当优先学习。在汉字的每一个词性(用法)标签之 下, 都有多个不同的义项。例如, 在“动词”这个词性标签之下, “謂”字具有8个义项:①评论;② 告诉;③说;④称呼;⑤认为;⑥奈;⑦是;⑧使。通过义项的数量, 我们可以理解字义的丰富 性。一个汉字的义项数量越多, 它所能传达的意义也就越丰富, 因此它的重要性也就越高, 应当 优先学习。

    以上, 我们分别从字用、字形、字音、字义四个层面介绍了汉字分级的计量特征, 现以各计 量特征为标准, 采用聚类分析的方法对 1000 字进行划分, 获得各汉字在每一计量特征上的学习 优先级别, 结果如表7所示:

    一个汉字可以用其计量特征及对应学习优先级别表示, 例如:難=字频4+使用度5+构词能力 1+笔画数量1+字形结构3+部首2+字音2+词性用法标签3+义项3

    基于此, 本文提出一种字向量模型, 每个汉字由一个维度为9的向量表示, 一个计量特征代表 一个维度, 对应维度的权重为该计量特征的学习优先级别, 例如“難”字可以表示为字向量 難: (4,5,1,1,3,2,2,3,3), 这样便可获得基于计量特征学习优先级别表示的字向量。

    将每一个汉字的向量映射到欧氏空间中, 接着根据学习的优先级来计算各个汉字间的相似 性。值得明确的是, 我们的最终目标是对汉字进行分组, 确保相似度较高的汉字被归为一组, 相 似度较低的汉字则被归为另一组, 而不是简单地计算某一汉字与其他汉字之间的相似度。这就 要求我们能够根据不同类型汉字的特点, 确定合适的相似性度量方法。因此, 有必要建立一个用 于进行相似性对比的准则。本文提出存在一个理想汉字, 它在字频、使用度、构词能力、笔画数 量、字形结构、部首、字音、词性用法标签、义项等层面, 均属于最优先学习一类, 各层面的学 习优先级别均为最高, 其可以表示为向量(5,5,5,5,4,5,2,5,5), 以该理想汉字为标准, 那么与它相似 度越高的汉字, 越应该优先学习。

    采用计算欧氏距离的方法测量各字向量与理想汉字间的距离, 欧氏距离能够体现个体数值特 征的绝对差异, 适用于需要从各维度的数值大小中体现差异的分析, 符合本研究的计算要求。在 m维空间, 点x与点y的欧氏距离的计算公式为:

    D ( x , y ) = i = 1 m ( x m y m ) 2

    求得各汉字与理想汉字的欧式距离用于后续汉字分级, 结果如下:

    2. 分级界标设置

    分级的目的在于区分不同等级, 同一等级内的成员应该具有相似性, 而不同等级之间的成员 则应该存在差异。直接主观地对汉字进行等级划分可能导致差异不明显, 因此必须依据某一特 定特征量来进行划分, 才能使得分级更有依据。

    分级的核心目标是为了区别不同的级别, 一个级别内的成员应当有相似之处, 而不同级别的 成员之间则应有所区别。如果过于主观地对汉字进行等级分类, 可能会造成差异的模糊性, 因此, 只有根据特定的特征量来进行分类, 才能使得分级更有依据。确定字表分为几级应该根据字表 的实际需求来决定。以往的分级字表通常分为3到5级, 例如《国际中文教育中文水平等级标 准》(3级)、《汉语国际教育用音节汉字词汇等级划分》(3级)、《汉字频率表》(5级)。

    《古籍汉字常用字表》主要是指导青少年入门学习古文, 所以收录1000个古籍汉字, 数量相 对较少, 这些字基本上是古籍阅读中必须掌握的基本汉字。因此, 我们认为无需划分过多的级别, 决定将其划分为3级, 这样可以更突出重点, 强调优先级别。我们将以每个汉字与理想汉字的欧 式距离为依据, 欧式距离越小, 说明与理想汉字越相似, 因此应该优先学习。我们将采用K-means 聚类方法对这1000个字进行聚类, 聚类数为3。下表是聚类的结果:

    由此确定了共分三级的《古籍汉字分级字表》, 其中一级字105个, 二级字340个, 三级字555 个, 一级字优先级别最高, 最应优先学习, 二级字、三级字优先级别递减。

    Ⅳ. 《古籍汉字常用字表》与相关字表的对比分析

    将《古籍汉字常用字表》与其他字表进行对比分析, 可以帮助验证其收字是否合理。因此我 们分别选用传统识字教材“三百千”和《现代汉语常用字表》与其进行比较。

    上表展示了《古籍汉字常用字表》与“三百千”收字比较情况, 可以看到《古籍汉字常用字 表》与《百家姓》所收字型重合率不高, 仅为 49.5%, 这是由《百家姓》本身的内容所决定的。作 为一本姓氏汇总读物, 《百家姓》将姓氏作为选字依据, 而不是从汉字本身特点出发进行选字汇 编。张志公34)曾评价:《百家姓》里的字都是姓, 儿童只要念这些字,认这些字的模样就行, 无需 去追究字义和句义。作为一本识字教材, 《百家姓》的收字未考虑到汉字字形、字音等层面的具 体特征, 本身就具有较大的局限性, 所以与《古籍汉字常用字表》字型重合率不高。

    《三字经》和《千字文》与《古籍汉字常用字表》的字型重合率分别为72.7%、60.4%, 这是 因为《三字经》和《千字文》也不是完全地从识字教学角度进行选字, 而在很大程度上考虑对儿 童进行知识和思想教育的需要, 因而更注重其内容组织的丰富性。《千字文》全书共250句, 每4 字一句, 4句一组, 内容涉及天文地理、历史政治、封建纲常、伦理道德等各个方面, 同时, 为保 证读起来朗朗上口, 还要注意韵律, 每两句一押韵。这种兼顾内容和用韵的文本内容组织, 必然 导致其在选字上不能完全从汉字本身特点出发。因此, 与《古籍汉字常用字表》的字型重合率也 不高。

    《古籍汉字常用字表》与《千字文》均收1000个字型, 更适合对比分析。表12展示了《古籍 汉字常用字表》与《千字文》的部分独有字与共有字。可知, 单从字形这一层面考虑, 《千字 文》的独有字就不太简单, 不适合儿童学习, 如 “髪、鞠、毀、緣、璧、競、攝”等, 而像“一、 十、三、至、山、又、然、今、未、太”这类字形简单的汉字, 《千字文》却未收录。对《千字 文》和《古籍汉字常用字表》所收独有字进行考察, 结果如表 13 所示:

    可见, 《古籍汉字常用字表》所收独有字对《四库全书》的文本覆盖率和平均使用度更高、 平均笔画数却更少, 说明它们更常用、使用范围更广, 在书写上更容易。因此, 《千字文》中收 录的部分汉字, 合理性有待商榷。

    《现代汉语常用字表》是现代汉字规范的重要字表, 其所收汉字在很大程度上代表了现代汉 字运用的基本情况。将《古籍汉字常用字表》与其进行比较, 可以帮助我们比较分古籍文本与现 代汉语常用汉字的异同。对比分析发现, 《古籍汉字常用字表》中, 共有652字在《现代汉语常 用字表》中出现, 而未出现的348个字, 均为繁体字, 由于《现代汉语常用字表》中收录的都是经 过简化的简体字, 两者自然不能对应起来。我们人工对这348字进行了繁简体转换, 将其中的316 个繁体字形转化为简体字形, 再次与《现代汉语常用字表》进行比对, 结果表明, 经过简化的汉 字中, 有311字为两表共有字, 因此, 两个字表共有964字重合, 这说明汉字系统具有极强的稳定 性, 96.4%的古籍汉字常用字至今仍为现代汉语常用字, 它们很好地传承了下来, 是汉字系统中的 核心字。而《古籍汉字常用字表》中独有的36个古籍汉字, 具体如表 14 所示:

    分析可知, 这些汉字未被《现代汉语常用字表》收录是有原因的, 如古籍文本中表示说话的 “曰”, 表语气的“矣、哉、兮、耶、焉”, 人称代词“吾、朕、汝”, 这些字在现代汉语中, 皆不再常 用, 而一些特殊名词:如姓氏“蔡”, 常用来表人名的“禹、朔、尧、桓、襄”, 表地名的“郡”, 表官 名的“仕、丞”、表天干地支的“巳、庚”, 表君主尊称“陛下”的“陛”, 颁布圣旨用的“詔、諭”以及臣 子进谏的“諫”等, 也因历史原因渐渐减少使用或逐渐废弃不用, 这些古籍汉字未出现在《现代汉 语常用字表》中是十分正常的。

    Ⅴ. 结论与展望

    不同于以往的字表研制, 本文在大规模古籍文本语料的基础上, 考察了古籍文本用字信息, 统 计构建了《古籍汉字常用字表》, 将其收字与传统识字课本“三百千”和《现代汉语常用字表》进 行了比较, 并在此基础上挖掘汉字分级计量特征, 对字表中的汉字进行了宏观定量研究, 考察了其 字频、使用度、笔画、部首等信息。通过综合分析, 对其中的汉字进行分级, 进一步实现了《古 籍汉字分级字表》的研制。然而, 本研究仍有许多不足:首先, 分级字量较少, 基于目前的工作进 度, 我们只选择了古籍文本语料库中字频靠前的1000字进行了分级;其次, 在利用汉字各层面计 量特征时, 未考虑到它们对汉字等级划分是否具有不同权重以及交互作用, 而是无差别的平等对 待;最后, 《古籍汉字分级字表》的分级效果有待检验, 需进行后续验证。在接下来的工作中, 我 们将针对以上问题, 改进分级方法, 进一步丰富完善《古籍汉字分级字表》的研制工作。

    Figures

    HERC-2-1-1_F1.gif
    1000字笔画数量分布图

    Tables

    “三百千”收字情况

    其它专业字表及分级情况

    教材古文单次字不见于《常用字表》的超纲字

    前N高频字型所对应文本覆盖率

    汉字使用度统计表

    使用度聚类结果及学习优先级别

    不同计量特征下的汉字学习优先级别及特征取值范围

    字向量举例

    汉字与理想汉字欧式距离举例

    学习优先级别聚类结果

    《古籍汉字常用字表》与“三百千”所收字型比较

    《古籍汉字常用字表》与《千字文》独ˊ共有字情况

    《古籍汉字常用字表》与《千字文》独有字统计信息

    《古籍汉字常用字表》独有字

    References

    1. 安雄 (2005), 「<一级阅读字表>及说明」, 『国际汉语教学动态与研究 』, 第4期.
    2. 曹傳詠・沈曄 (1963), 「在速示条件下儿童辨認汉字字形的試探性研究——Ⅱ, 字形結构的若干因素对 字形辨认的影响」, 『心理学报 』, 第4期.
    3. 陈黎明 (1996), 「<急就篇>用字初探」, 『中国语文 』, 第6期.
    4. 陈黎明・张晗 (2010), 「“三百千”的用字及其流向」, 『汉字文化 』, 第1期.
    5. 程宁・李斌・葛四嘉・郝星月・冯敏萱 (2020), 「基于BiLSTM-CRF的古汉语自动断句与词法分析一体化 研究」, 『中文信息学报 』, 第34卷, 第4期.
    6. 冯莉 (2012), 「基于<孟子>字料库的字频统计与研究」, 北京师范大学硕士学位论文.
    7. 冯志伟 (1989), 『现代汉字和计算机 』, 北京大学出版社.
    8. 江新・赵果・黄慧英・柳燕梅・王又民 (2006), 「外国学生汉语字词学习的影响因素——兼论<汉语水平大 纲>字词的选择与分级」, 『语言教学与研究 』, 第2期.
    9. 李国英・周晓文 (2011), 「汉字字频统计方法的改进」, 『北京师范大学学报(社会科学版) 』, 第6期.
    10. 李兆麟 (2014), 「谈常用字词的选取及其等级划分」, 『辞书研究 』, 第2期.
    11. 毛承慈 (2012), 「基于字料库的<诗经>文字研究」, 北京师范大学硕士学位论文.
    12. 彭瑞祥・喻柏林 (1983), 「不同结构的汉字再认的研究」, 『普通心理学与实验心理学论文集 』, 甘肃人民 出版社.
    13. 沈烈敏・朱晓平 (1994), 「汉字识别中笔画数与字频效应的研究」, 『心理科学 』, 第4期.
    14. 苏培成 (2001), 『二十世纪的现代汉字研究 』, 书海出版社.
    15. 孙钧锡 (1991), 『中国汉字学史 』, 学苑出版社.
    16. 汪受宽・刘凤强 (2005), 「四库全书 研究的回顾与思考」, 『史学史研究 』, 第1期.
    17. 王孝玲・陶保平 (1996), 『小学生识字量测试题库及评价量表 』, 上海教育出版社.
    18. 吳鑑城・白明弘・林慶隆 (2019), 「臺灣華語文語料庫在華語文教育的應用」, 『華語文教學研究 』, 第3期.
    19. 杨华 (2013), 「多音误读与语用频率的关系」, 『语言文字应用 』, 第2期.
    20. 叶重新・刘英茂 (1972), 「影响本国文字认识阈的因素」, 『台湾大学心理学系研究报告 』, 第14期.
    21. 喻柏林・曹河析 (1992), 「汉字识别中的笔画数效应新探——兼论字频效应」, 『心理学报 』, 第2期.
    22. 张志公 (1992), 『传统语文教育教材论 』, 上海教育出版社.
    23. 赵金铭 (1989), 「外国人基础汉语用字表草创」, 『汉语研究 』, 南开大学出版社.
    24. 赵克勤 (1987), 『古汉语词汇概要 』, 浙江教育出版社.
    25. 周美玲 (2013), 「<新课标>附发字表与语文教材用字对比研究及思考」, 『内江师范学院学报 』, 第28卷.
    26. 周美玲・韩杰 (2011), 「四套语文教材现代文、文言文用字分析与思考」, 『教学与管理 』.
    27. 朱志平 (2002), 「汉字构形学说与对外汉字教学」, 『语言教学与研究 』, 第4期.
    28. Biber, D (1990), A typology of English texts, Linguistics, No.27.
    29. Jerry L. Johns (1970), The Dolch basic word list—Then and now., Journal of Reading Behavior, Vol. 3, No.4.
    30. MEJ Newman (2005), Power laws, Pareto distributions and Zipf's law Contemporary Physics, No.5.
    31. Nation P , Waring R (1997), Vocabulary size, text coverage and word lists, Description, acquisition and pedagogy, No.14.
    32. Rayner, K. , Pollatsek, A. (1989), The psychology of reading, Hillsdale, NJ:Erlbaum.
    1. SEARCH
    2. 온라인 투고 시스템

      (Online Submission)

    3. 한문교육연구소

      (Institute for Han-Character
      Education Research)

    4. 편집부
      (Editorial Office Contact)

      - Tel: +82-31-8005-2661
      - E-mail: iher_dku@outlook.com