系统简介
本系统由海峡两岸语言文字学、文献学、辞书编纂等多学科专家学者与互联网技术人员共同开发建设,具有简体中文和繁体中文互转的词级转换功能,因而得名《海峡繁简中文转换系统》。
目前,网络上有关繁简字转换的各种免费软件(或称转换器、在线繁简转换网站)比比皆是,大致可以分为“字级转换”和“词级转换”2类。《海峡繁简中文转换系统》属于“词级转换”软件。 “字级转换”软件,只能简单地将一个简化字转换为一个对应的繁体字,然而对于一个简化字对应着多个繁体字的情况就无法处理了。例如:“并”字的繁体有“並”、“併”2个,“并”字本身在繁体中文系统里也是独立的一个字,这样,一个简化字“并”就对应着3个繁体。大多数的“字级转换”软件选择的是:简化字“并”对应繁体字“並”(并—→並),如果用这类繁简字转换软件进行“简—→繁”转换时,句子或文章中所有的“并”都会被转换为“並”。“併”和“并”的所有组词例如“合併”、“吞併”、“併發症”等词也会被转换成“合並”(×)、“吞並”(×)、“並發症”(×);“并州”、“并刀”、“并州剪”等词也会被转换成“並州”(×)、“並刀”(×)、“並州剪”(×)。对于这样的转换,大多数使用繁体中文的人是看不明白的,至少会造成阅读理解上的不便。
“词级转换”软件,可以分为初级和高级(或专业级)2种。初级“词级转换”软件是在“字级转换”的基础上进行了简单修订,相当数量的常用词组能够得到正确的转换,但是还很不完善。在遇到这样的句子,如: “巴西最大贫民窟发生黑帮火并。”和“日航发动机起火并非撞鸟所致。”正确的“简—→繁”转换是:巴西最大貧民窟發生黑幫火併;日航發動機起火並非撞鳥所致。这2个句子中都含有“火并”一词(注:火并,指同伙自相残杀、吞并;繁体为“火併”),而后句中的“火并”没有前句中“火併”的意思,后句要表达的意思是“起火的原因并不是”,而“起火并非”的繁体是“起火並非”。一般的“词级转换”软件会转换成:巴西最大貧民窟發生黑幫火併;日航發動機起火併非撞鳥所致。
类似的例子还有很多,再如:
宋代文学家苏轼《念奴娇·大江东去》词中有“多情应笑我,早生华发”一句,现代文章中有“各国企业在华发展机遇会越来越多”。正确的“简—→繁”转换是:多情應笑我,早生華髮;各國企業在華發展機遇會越來越多。这2个句子里都含有“华发”一词(注:华发,指花白的头发,繁体为“華髮”), 而后句中的“华发”没有前句中“華髮”的意思,后句要表达的意思是“在中国发展”,而“在华发展”的繁体是“在華發展”。 此外,“并”字还有一些古体、异体字如“幷、竝、竮”等,现在已不常用,但这些字是古人在书法、文章和著作中用过的字,在需要对涉及到这些字的文章或句子进行“简—→繁”转换时,“字级转换”软件只能望洋兴叹;初级“词级转换”软件如果没有有关专家参与是无法进行修订、完善的。
《海峡繁简中文转换系统》软件的建设目标是:建成一款简体中文和繁体中文之间能够精确互转的专业词级转换系统。
检测例句
本着“开放、共享”的互联网精神,这里将《海峡繁简中文转换系统》建设过程中用于专家评审的《繁简字转换软件通用测试100例句》公开发布如下,欢迎用户检测并提宝贵意见。用户在使用本系统过程中发现的转换错误,可通过 意见反馈 把错误之处和宝贵意见反馈给我们,我们将认真研究并及时改进。
繁简字转换软件通用测试100例句
1. 〔简〕(1)老板板着脸,一句话也不说。老板娘态度亲切和蔼,大家都喜欢到这里买东西。(2)后台老板,原指戏班子的班主。后多比喻在背后支持,或暗中操纵事态的人或集团。 〔繁〕(1)老闆板著臉,一句話也不說。老闆娘態度親切和藹,大家都喜歡到這裡買東西。(2)後臺老闆,原指戲班子的班主。後多比喻在背後支持,或暗中操縱事態的人或集團。
2. 〔简〕(1)唯有劳力士授权的特约零售商,方能提供销售及保养劳力士手表的服务。(2)职代会通过决议,一般都是举手表决。(3)有一些我们认为比较优秀的选手表现却不尽人意。 〔繁〕(1)唯有勞力士授權的特約零售商,方能提供銷售及保養勞力士手錶的服務。(2)職代會通過決議,一般都是舉手表決。(3)有一些我們認為比較優秀的選手表現卻不盡人意。
3. 〔简〕山西并州所出产的剪刀称为并刀。宋·陆游《对酒诗》里有:“闲愁剪不断,剩欲借并刀。” 并州为古十二州之一,北朝后以今山西省旧太原府为并州。 〔繁〕山西并州所出產的剪刀稱為并刀。宋·陸游《對酒詩》裡有:「閑愁剪不斷,剩欲借並刀。」并州为古十二州之一,北朝后以今山西省舊太原府為并州。 (注:閑愁,亦可作“閒愁”,原文作“閑愁”。)
相关知识
目前,汉字有繁体中文(繁体字)和简体中文(简体字或简化字)之分。繁体中文主要在台湾、香港与澳门地区,及北美等绝大部分海外华人社区中使用。简体中文主要在中国大陆,马来西亚、新加坡,以及东南亚一些国家的华人社区中使用。使用繁体中文和简体中文的人们,在学习、沟通、交往和文化交流过程中,时常需要将繁体中文转换为简体中文,或将简体中文转换成繁体中文。此外,中国加入世贸后,很多国际性公司和机构都需要将重要的外文文字同时翻译为“简体中文”和“繁体中文”,许多重要中文文件往往需要同时发布“简体中文版”和“繁体中文版”。
随着计算机技术、互联网技术和人工智能的研究深入和不断发展发展,计算机在处理各类问题时几乎无所不能。然而它在处理“繁简字转换”和“繁简中文信息交流”事情上还存在很大的问题。其中的主要原因之一是计算机处理转换的规则是“一对一”的转换,而在简化字(或简体字)与繁体字之间存在“一简对多繁”的情况。例如:
(1)“轻松”(繁体:輕鬆)的“鬆”被简化为“松”,“松树”(繁体:松樹)的“松”简体和繁体皆为“松”,这样,一个简化字“松”对应着“轻松”的“松”和“松树”的“松”,我们把这种情况叫“同音替代一简对二繁”。
(2)“发展”(繁体:發展)的“发”,对应着“发展”、“发财”(繁体:發財)的“發”和“头发”(繁体:頭髮)的“髮”,这样,一个简化字“发”对应着“發”和“發”二个繁体字,我们把这种情况叫“近音替代一简对二繁”。
(3)“台”,在繁体中文里仍然为“台”(浙江省“台州市”繁体仍作“台州市”,“台湾”繁体为“臺灣”,时常也用作“台灣”),作为简化字的“台”对应着“台”、“臺”、“檯”、“颱”4个繁体字,我们把这种情况叫“近音替代一简对多繁”。
“一简对多繁”的情况存在,使得计算机处理“无法实现完全的自动化”。华东师范大学詹鄞鑫教授在《关于简化字整理的几个问题》的论文中指出:“由于简化字中采用了同音替代(注:包括近音替代),造成在计算机繁简字转换时无法实现完全的自动化。”他还说,“这个因同音替代造成的问题如果不解决,计算机处理和中文信息交流的完全自动化就永远不可能彻底实现。”所谓同音替代,是1950年代中国汉字简化时,采用的用一个笔画较少的同(近)音字来替代某一个笔画较多的繁体字,或者用一个简化字来代替两个甚至多于两个的音同(近)的繁体字的方法(汉字简化方法之一)进行汉字简化。形成了今天一些简化字对应2个或多个繁体字的状况。《海峡繁简中文转换系统》软件就是要在“同音(近)替代”情况还没有改变或者不变的情况下实现繁简字转换计算机处理“完全自动化”。
什么是简体字? 什么是简化字? 什么是繁体字? 什么是正体字? 什么是传承字?
意见反馈
海峡繁简中文转换系统
邮箱:zwbk2016@qq.com
- 留言时间: 2019-7-7 17:18:28
留言内容:很不错
管理员回复:未回复 - 留言时间: 2019-7-4 15:22:28
留言内容:“词级转换”软件,可以分为初级和高级(或专业级)2种。初级“词级转换”软件是在“字级转换”的基础上进行了简单修订,相当数量的常用词组能够得到正确的转换,但是还很不完善。在遇到这样的句子,如: “巴西最大贫民窟发生黑帮火并。”和“日航发动机起火并非撞鸟所致。”正确的“简—→繁”转换是:巴西最大貧民窟發生黑幫火併;日航發動機起火並非撞鳥所致。这2个句子中都含有“火并”一词(注:火并,指同伙自相残杀、吞并;繁体为“火併”),而后句中的“火并”没有前句中“火併”的意思,后句要表达的意思是“起火的原因并不是”,而“起火并非”的繁体是“起火並非”。一般的“词级转换”软件会转换成:巴西最大貧民窟發生黑幫火併;日航發動機起火併非撞鳥所致。
管理员回复:未回复 - 留言时间: 2019-7-4 15:19:40
留言内容:海峡繁简中文转换系统
管理员回复:未回复