大五码(Big5),又称为五大码,是使用(繁体)中文字社群中最常用的电脑汉字字符集标准,共收录13,060个中文字,其中有二字为重覆编码。
正文
Big5常用于台湾、
香港特别行政区和澳门等使用繁体中文的地区。在1990年代初期,当中华人民共和国的电邮和转码软件还未普遍之时,在
深圳市的港商和台商公司亦曾经使用Big5系统,以方便与总部的文件交流、以及避免为中国的办公室再写一套不同内码的系统。在使用简体中文社群,最常用的是GB 2312、GBK及其后续的国标码(GB 18030)。在使用简体中文字社群,最常用的是GB 2312及其後续的国标标准。在Big5码诞生後,大部分台湾的电脑软体都使用了Big5码,加上倚天中文系统的普及,使後来的MicrosoftWindows 3.1等亦与以採用。
台湾当局尔後发展的国家标准中文交换码(CNS 11643)由於先天所限,必须使用3
字节来表示一个中文字,与现行
英语软件欠缺相容,所以普及率远远不及Big5码。
历史
此五间公司为:
宏碁、神通、佳佳、零壹及大众。“五大码”的英文名称“Big5”后来被人按英文字序译回中文,以致现在有“五大码”和“大五码”两个中文名称。
Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如IBM 5550、王安码等,彼此不能兼容;另一方面,台湾当时尚未推出官方的汉字编码,而中华人民共和国所推行的GB 2312编码,亦未有收录繁体字。在这样的时空背景下,为了使台湾早日进入资讯时代,所采行的一个计划;同时,这个计划对于以台湾为核心的
亚洲繁体汉字圈也产生了久远的影响。
在Big5码诞生后,大部分台湾的电脑软件都使用了Big5码,加上后来倚天中文系统的高度普及,使后来的微软 Windows 3.x等亦予以采用。虽然后来台湾还有各种想要取代Big5码,但是由于Big5字码已沿用多年,因此在习惯不易改变的情况下,始终无法成为主流字码。而台湾以后发展的国家标准中文交换码(CNS 11643)由于先天所限,必须使用3
字节来表示一个汉字,与现行
英语软件欠缺兼容,所以普及率远远不及Big5码。
现在,除了台湾外,其他使用繁体汉字的地区,如
香港特别行政区、澳门,还有海外华人,都普遍使用Big5码。这已经成为繁体中文显示的标准格式。
发展
由于各厂商及政府推出的Big5延伸,彼此互不兼容,造成乱码问题。鉴于Unicode能正确地处理七万多个汉字,近年的操作系统和应用程序(如苹果电脑Mac OS X 和以
Cocoa API 撰
写之程序、Microsoft Windows 2000及之后版本、Microsoft Office 2000及之后版本、Mozilla浏览器、Internet Explorer浏览器、Java 语言等等),已改用Unicode编码。可惜现时仍有一些旧的软件(如Visual Basic6、部分Telnet或BBS软件),未能支援Unicode编码,故相信Big5缺字的问题仍会困扰用户一段时间,直至所有程序都能改用Unicode为止。
字节结构
Big5码是一套双字节字符集,使用了双八码储存方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。
“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中:
值得留意的是,Big5重复地收录了两个相同的字:“兀、兀”(0xA461[U+5140]及0xC94A[U+FA0C])、“、嗀”(0xDCD1[U+55C0]及0xDDFC[U+FA0D])。
冲码问题:因为低位元字符中包含了
编程语言、shell、script中,字串或命令常会用到的特殊字符,例如0x5C“\”、0x7C“|”等。“\”在许多用途的字串中是当作转义符号又称为跳脱字符,例如\n(换行)、\r(归位)、\t(tab)、\\(\本身符号)、\"(引号)等等。而“|”在
unix操作系统中大多当作命令管线的使用,如"ls-la|more"等等。如果在字串中有这些特殊的转义字符,会被程式或直译器解释为特殊用途。但是因为是中文的原因,故无法正确解释为上面所述的行为,因此程式可能会忽略此转义符号或是中断执行。若此,就违反了使用者本来要当成中文字符一部份使用的本意。
在常用字如“功”(0xA55C)、“許”(0xB35C)、“盖”(0xBB5C)、“育”(0xA87C)中时常出现,造成了许多软件无法正确处理以Big5编码的字串或文件。这个问题被戏谑性地人名化,称为“許功蓋”或“許蓋功”(这三个字都有这种问题)。
一般的解决方法,是额外增加“\”的字符,因为“\\”会被解释为“\”,所以“成功\因素”这个字串就能无误地被程式当作“成功因素”的字串来处理。但是额外的困扰是,有些输出功能并不会把“\”当作特殊字符看待,所以有些程式或网页就会错误地常常出现在“许功盖”这些字后面多了“\”。
私人造字区:在倚天中文系统,以及后来的
Windows 3.1、95及98中,定义了四个私人造字区范围:0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。
私人造字区的原意,是供使用者加入本来在编码表中缺少的字符,但当每个使用者都在不同的地方加上不同的字符后,当交换资料时,对方便难以知道某一个编码究竟想表达什么字。
影响
自中文电脑流行后,由于很多日常用字被视为异体字而未收录。很多人,甚至电视台的字幕、报纸的用字习惯都被改变。
例如台湾地区教育事务主管部门视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“”、“癶”等)、常见的人名用字(如“”(前台湾地区行政机构负责人游锡堃)、“煊”(台湾监察机构负责人、前地区经济事务主管部门负责人
王建煊)、“”(歌手
张柏芝)、“”(歌手
陶喆)等),虽被中文社会广泛采用,也没有收录到Big5之中。
在互联网上,实在不难看到人们把游锡堃、王建煊、陶喆等名字,写成为“游锡方方土”、“王建火宣”和“陶吉吉”等写法。电视上
日本动画的中文字幕中也会看到像“木坚”这样的字。
Big5未收录字举例:
延伸
由于Big5码内的万多个字,只是根据台湾地区教育事务主管部门颁布的《常用国字标准字体表》、《
次常用国字标准字体表》等用字汇编而成,并没有考虑社会上流通的人名、地名用字、方言用字、
化学及生物科等用字,亦没有放入
日语平假名及片假名字母。
所以在市面上支援Big5码的软件,有不少都自行在原本的编码外,添加一些符号及用字。
非官方Big5延伸
倚天Big5延伸:在倚天中文系统中,为与IBM5550码相容,他们在Big5码添加了以下的字符:
在0xA3C0-0xA3E0,添加了33个控制字符的图象。
罕用符号区。在0xC6A1-0xC875,添加了圆形1-10、括号1-10、小罗马字i-ix等章节符号、一些部首及笔划结构,
日语平假名、片假名及
俄语使用的西里尔字母。
在0xF9D6-0xF9FE,添加了7个倚天扩充字:、銹、恒、裏、墻、、嫺和34个表格符号。
这个延伸有时被称为Big5-eten。由于倚天中文系统是
Windows 95推出之前市场占有率最高的中文系统,此延伸是各种非官方延伸当中最重要的一个。
在后期版本的倚天中文系统中,更加入了一些图案和简体中文字,但未被广泛接受。
在
Windows的CodePage950(简称CP950)之中,只添加了上述0xF9D6-0xF9FE的倚天扩充字及表格符号,并没有加入
日语假名字母等其他延伸,对不少使用
Windows的用者带来困扰。
在
Windows ME之中,微软首度在0xA3E1加入了欧元(€)符号,之后所有Windows版本的CodePage950也都有这个符号。
中国海字集:“中国海字集”是中国海有限公司(1990/09/17-2005/12/02)(已解散)的商业电脑字型产品。其特点是在加入大五码以外的造字,加入一些常用但大五码(BIG5)中没有收进的字,标点及
日语等5300多个,以弥补大五码的不足。中国海字集本是中国海公司另一套产品轻松输入法的衍生产品,以弥补大五码字不够无法输入的缺憾,因此中国海字集通常附着“轻松输入法”一同销售,但中国海字型的也有单独售卖或是包含在中国海的其它产品中。
dos:中国海字集最初推出之时,是以“体验版”的形式在台湾的BBS上供用户下载其16×15字型作试验。由于用户反应十分好,所以后来委托棋峰资讯发行《中国海字集》一书,连同24×24字型及轻松输入法体验版发售。有关字型只适合当时最流行的中文系统,主要是倚天中文系统使用。
Windows:1994年,
微软推出繁体中文
Windows 3.1。由于这个版本开始采用TrueType字体技术,使字型比非Windows的点阵字体美观得多。但是由于中国海公司的研发进度严重落后,因此这段期间中国海公司一直没有新产品推出。当时外界有一套适用于Windows3.1的外字档案,是热心网友自行开发后上传到网上,质量甚至比往后中国海推出的更好。
直至1997年,中国海推出Windows3.1版本的轻松输入法及
Windows 95使用的轻松输入法EZ2000,当中附带着向TrueType版本的中国海字集。更在Office97中,附带着轻松输入法的体验版,由于能够显示及输入如
日语及一些特别标点,因此大受欢迎,使得中国海进入最辉煌的时期。
可惜的是,在2000年的时候,
Windows 2000的推出,一方面Windows2000已经采用Unicode,要输入像日文已经没有
Windows 98,ME那么困难,另一方面中国海一直无法推出支援Windows2000的轻松输入法。中国海公司曾经释出了免费的中国海字集,供大众使用,但为时已晚;当2001年推出支援Windows2000的轻松输入法销售并不理想后,中国海公司亦告结束。
日和字集:“日和字集”乃一香港人开发的造字档,以兼容香港增补字符集为卖点,为字集中仍没函盖的
日本汉字和日本国字作增补,并附有
仓颉、速成等输入法作辅助。
Unicode补完计划:Unicode补完计划(官方网站使用的识别系统用字是Unicode补完计画)是台湾电脑使用者针对大五码(Big-5)延伸的紊乱,以及
微软CodePage950(MicrosoftWindows内建的Big-5转码表)未收录某些常用字(又称缺字问题)以及缺乏对于倚天、中国海字集延伸中的简体字、
日语假名与汉字支援等问题,所采取的其中一种解决方案(参看大五码#影响)。透过对CodePage950的修改,使得原始采用简体中文或日语的内容,在复制至ANSI架构的程式时能转换为Unicode补完计划字集下的对应字符,而不会造成缺字的问题(具体字符请参看字符的来源)。它是一个
自由软件。
要留意的是“Unicode补完计划”不等于Unicode。当你看见有人说“我安装了Unicode”,通常是他把“Unicode补完计划”和Unicode搞混了。
“Unicode补完计划”也不是用来解决软件显示乱码的问题。电脑内要有相关的字形(例如支援整个Unicode汉字的字形),才能在
电脑显示器看到。因为“Unicode补完计划”只包含了编码转换表,并不包括字形在内。而一些
日语游戏装在
Windows XP所出现的乱码问题,应使用MicrosoftAppLocale内码转换器等程式去作内部转换。
历史:
2001年9月:Unicode计划1.0版发表。支援日文假名。
2001年10月:Unicode计划2.0版发表。支援第一水平汉字单向对应。
2002年4月:中文化联盟发表Big5Extension扩充规格。一口气支援大量汉字。
2002年5月:Big5Extension扩充规格与Unicode计划同意整合。
2002年6月:有鉴于Big5Extension易与中推会的Big5E名称混淆,正式决定统一以Unicode计划作为名称,由中文化联盟发布。
2006年2月:FireFox2采用Unicode补完计划做为BIG5单向转换到UNICODE的字码表,因此FireFox2/3可显示BIG5码
日语假名。而同时期的IE6/7至今仍无法显示BIG5码日文假名。
官方Big5延伸:台湾地区教育事务主管部门造字档:台湾地区教育事务主管部门有它本身的一套造字档,主要给部门内使用,亦有于台湾地区教育事务主管部门的网上字典使用。
台湾农委会常用中文外字集:台湾地区行政管理机构制定了一套有133个汉字的造字档,其中有84个是鱼字部汉字、7个是鸟字部汉字。
Big5+:中文数位化技术推广委员会(中推会)在1997年推出Big5+,使用了两万多码位,纳入了Unicode1.1下所有汉字。由于编码使用到的范围超过原先Big5定义(Big5+使用了高
字节0x81-0xFE,低字节0x40-0x7E、0x80-0xFE),无法安装在MicrosoftWindows上,现几乎无人使用。
Big-5E:为了使
Windows使用者可以使用造字档,台湾地区行政管理机构委托中推会再次推出一个补充字集Big-5E(与Big5+并不兼容),共收3954字。它把Big5+不少汉字都去掉,更甚者放弃了倚天延伸字集的假名部分。于是,除了部分被强制使用的政府单位外,没有多少人愿意使用Big5E。
Big5-2003:鉴于Big5不是一个官方标准,中推会决定编制一个Big5的定义,并把它放到官方编码CNS11643的附录里,正式成为官方标准的一部分。
在Big5-2003之中,收录了所有在1984年Big5编码的所有字符,另外再加入
微软CP950的欧元符号、倚天延伸字集的0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE的用字。Big5-2003没有收录行列输入法特殊符号及0xC7F3-0xC875的
俄语西里尔字母,理由是以CNS11643没有这些字符。除此之外,所有倚天延伸全部收录。
相对于Big5-2003,最早没有加上任何延伸的Big5则被称为Big5-1984。
香港特别行政区增补字符集:是香港政府基于繁体中文电脑操作环境中最流行的大五码(Big-5)之上扩展的字符集标准,是现时香港的中文资讯交换内码标准。香港增补字符集以前称为《政府通用字库》(GovernmentCommonCharacterSet,简称GCCS),本来只是香港政府内部统一使用的造字档,有三千多字。但由于香港电脑业界不断要求政府迎合本地需要,提出官方的字符集方案,以便与政府进行文件来往,于是香港政府便在1995年把这个内部使用的标准公开。到了1999年,此字集增加到四千多字,并改为现名。
字符集所收罗的字,主要包括
香港特别行政区的地名、人名用汉字、
粤语汉字及异体字,也有小部份简体字。除此之外,此字符集亦把倚天中文系统收录的
日语平假名、片假名及俄语字母包括在内。此字符集由中文界面咨询委员会管理,仍在不断扩编之中。最新版本为2005年5月推出的HKS
计算机科学2004,收录4,941个字符。
字符分类:在HKSCS-2004版本,汉字字符共4500个,其中3353字可在大型的字典(如《
汉语大字典》)中查到,包括简化字、异体字、日语汉字等。其余在各大中文字典中查不到的字中,有
粤语方言字(有些可在方言字典及学术著作中查到)、人名、公司名、地方名、变形部首、附形、讹字。有些字来自入境事务处、公司注册处、税务局、地政
总理各国事务衙门建筑遗存。
各类符号共441个,有汉字笔形、汉语拼音字母、国际音标符号、汉字符件、画表符号、
日本平假名、片假名等。
香港增补字符集在2005年才有画数、部首、粤音等资料给用户参考,还说明方便检索,而非作为规范标准。(汉字的部首在不同的字典中,归部也不尽相同)
编码和Big-5的关系:香港增补字符集当初因为是补充Big-5的收字不足,使用其外字区而发展的,所以受制于Big-5的编码架构,外字的总数最多只能到6217个(每区块157字,有39区块半)。除去已用码位,剩下千余个码位,其中有部分会保留给用户造字。
早期的倚天中文系统、国乔中文系统等对造字缺乏管理,而又没有文字专家的审定,因此当时造字很是混乱,有些甚至可能只是临时使用的“错字”(寻遍各大字典、专书也查不到的字,也作幽灵汉字);制作这些中文系统的厂商又对字形、字体缺乏认识,有些字会因为字体不同而字形稍有差别,分别编进了两个码位中。又有同一字有系统区及造字区两个码位,有些联绵词只收其一不收其二;这个问题带到了政府通用字库和
香港特别行政区增补字符集中,字集因要反向兼容而跳过了一些码位。
Big-5原来的编码,只有汉字、标点、注音符号等字符及少数图形,后来经过台湾厂商的增收,多了7个“倚天字”(即碁、銹、裏、墻、恒、粧、嫺)及
日语的假名,最后这批字符又被香港增补字符集收入。
香港增补字符集所使用的Big-5的外字区分几个区段:
“造字区一”(FA40—FEFE):早期的GCCS字符集已经填满这一段。
“造字区二”(C6A1—C8FE):倚天用了这段来放日文假名等符号。这些符号在HKSCS1999年的版本被收纳。
“造字区三”(8140—A0FE):香港增补字符集把这段开头的(8140—84FE)保留给用户,新增的字符只用其余的码位。“厂商造字区”(F9D6—F9FE):这段开始的七个码位用来存放裏、恒等“倚天字”,之后的码位被微软的繁体中文Windows用来存放制表符号。后来HKSCS1999年版本将之全部收纳。
可是一般提及HKSCS的文件,包括来自香港政府的,都没有注明HKSCS以外的一般繁体字编码(即是Big-5本身)使用哪个版本。Big-5在2003年前就只有一个版本,不会造成混淆,但HKSCS-2004的文件仍没有指定Big-5部份是2003年之后还是之前的版本,虽然到目前为止并没有任何系统使用Big5-2003。
相关词条
参考资料
中文数位化技术推广基金会
CNS 11643 国家标准中文交换码
CCCII 中文信息交换码
ICU Converter Explorer (Big5)
Big5字符集简介
Big-5 编码系统
参考资料
Warning: Invalid argument supplied for foreach() in
/www/wwwroot/newbaike1.com/id.php on line
362