冷玉龙补充道:“此外,为了充分反映汉字的实际情况,《中华字海》还酌量收录了历代文献中的新旧笔形与讹字。”
“这一部分的收字标准,我们采用‘单体字从宽,合体字从严’的规则。一般单体尽量收录,合体字尽量不录。”
“还有最后一部分工作,就是整理过程中的清理。”韦一心说道:“《中华字海》在前任字书未及的异体字与错讹字方面,进行了一些清理与合并工作。在释义当中,尽量将诸多典籍中的释义和释疑尽量找齐,合并到一个字的释义之下。”
“如(木舟)字,《汉语大字典·补遗·木部》:‘(木舟),树名。’《太平御览》卷七百七十引周处《风土记》:预章(木舟)诸木,皆以多曲理盘结为坚劲也。’但是并未注音。”
“而《字海》综合《汉语大字典》出版后的一些考释成果释为:“(木舟),同‘楠’。见《龙龛》。”
“类似这样的后补考证成果,我们也将之补充进《字海》的(木舟)字释义之下。”
“加上我们自己未能考订确实的《补遗》部分,《字海》其实一共收录了87019个汉字。”
“太了不起了。”周至不禁感慨:“这可不是把我们要干的活都干了啊?”
“要点脸。”辜开来不禁翻起了白眼:“什么叫你要干的活?”
“两位师兄的搜字范围,几乎已经囊括了我们所能想象的全部啊。”周至乐得都不行了:“还是用楷体建卡,我估计自动程序扫描识别的问题应该不大。”
“那就走吧,先去库房看看。”冷玉龙比周至还急:“要是合用那就捡大便宜了,咱们可以把《字海》的出版工作尽快提上日程!”
“嗯,等到确定了可行性,我们就去找李国杰教授打擂台!”
“李国杰教授?”韦一心搜索了一下自己认识的文字学大擘,似乎没有这么个人,转头问冷玉龙:“冷泉你听过这人吗?”
见韦一心误会,周至方才笑道:“李国杰教授是曙光超算中心负责人,之前我们想要一点运算资源,国杰教授那叫一个抠门啊……这次我们找上门去,堵着他打擂台!”
北大中文系几间资料室里,冷玉龙和韦一心八年多的心血,静静地躺在这里。
整个资料室分作了两百多个部分,按照《中华字海》的字头索引方式,分门别类地归纳在文件柜里。
每一个柜子里都有几个纸箱,箱子里是一个个的文件袋,里边一沓一沓的都是硬纸卡片。
对于翻习惯了字典的人来说,每一张卡片,其实就是字典上关于一个文字的本字及注解区域。
卡片左上角是一个标准的大田字格,文字端正的楷书就写在那里,接着是拼音注音,释义,摘引文献等等“凡例类目”。
将几间大屋子的所有资料一页页铺起来,影印缩小,就是一部《中华字海》。
或者说,将未来的一部《中华字海》放大,裁剪开,就是这几大屋的资料。
“应该没问题。”周至看着一丝不苟的字卡,不由得大感佩服:“这连标点的大小和写法,都有规范,每个逗号都几乎一模一样啊……”
“这是门里的老传统了,逗号需要按照‘日’字格分作上下两个部分,上部为圆形,圆周与‘日’字格边框相切,斜弧线那一笔要头粗尾细,头部从圆与日字格右切点开始,宽度占圆周八分之一,然后收细画弧,笔尖到日字格左下结束。”韦一心笑道:“当然是有规矩的。”
“时来天地同运力。”周至都乐坏了:“确认了,一个老师教出来的!瀚文字库逗号的矢量化规则也是这样!”