为一直不信Java竟会有不能混排显示多国语言的BUG,这个周末研究了一下Servlet、 Jsp的多国语言显示的问题,也就是Servlet的多字符集问题,由于我对字符集的概念还 不是很清晰所以写出的东西未必是准确的,我是这样理解Java中的字符集的:在运行时 ,每个字符串对象中存储的都是编码为UNICODE内码的(我觉得所有的语言中都是有相应 编码的,因为在计算机内部字符串总是用内码来表示的,只不过一般计算机语言中的字 符串编码时平台相关的,而Java则采用了平台无关的UNICODE)。
Java从一个byte流中读取一个字符串时,将把平台相关的byte转变为平台无关的Un icode字符串。在输出时Java将把Unicode字符串转变为平台相关的byte流,如果某个Un icode字符在某个平台上不存在,将会输出一个'?'。举个例子:在中文Windows中,Jav a读出一个"GB2312"编码的文件(可以是任何流)到内存中构造字符串对象,将会把GB2 312编码的文字转变为Unicode编码的字符串,如果把这个字符串输出又将会把Unicode字 符串转化为GB2312的byte流或数组:"中文测试"----->"u4e2du6587u6d4bu8bd5"-- --->"中文测试"。
如下例程: byte[] bytes = new byte[]{(byte)0xd6, (byte)0xd0, (byte)0xce, (byte)0xc4, (b yte)0xb2, (byte)0xe2, (byte)0xca, (byte)0xd4};//GBK编码的"中文测试" java.io.ByteArrayInputStream bin = new java.io.ByteArrayInputStream(bytes); java.io.BufferedReader reader = new java.io.BufferedReader(new java.io. Inpu tStreamReader (bin,"GBK")); String msg = reader.readLine(); System.out.println(msg) 这段程序放到包含"中文测试"这四个字的系统(如中文系统)中,可以正确地打印 出这些字。msg字符串中包含了正确的"中文测试"的Unicode编码:"u4e2du6587u6d4 bu8bd5",打印时转换为操作系统的默认字符集,是否可以正确显示依赖于操作系统的 字符集,只有在支持相应字符集的系统中,我们的信息才能正确的输出,否则得到的将 会是垃圾。
话入正题,我们来看看Servlet/Jsp中的多语言问题。我们的目标是,任一国家的客 户端通过Form向Server发送信息,Server把信息存入数据库中,客户端在检索时仍然能 够看到自己发送的正确信息。事实上,我们要保证,最终Server中的SQL语句中保存的时 包含客户端发送文字的正确Unicode编码;DBC与数据库通讯时采用的编码方式能包含客 户端发送的文字信息,事实上,最好让JDBC直接使用UNICODE/UTF8与数据库通讯!这样 就可以确保不会丢失信息;Server向客户端发送的信息时也要采用不丢失信息的编码方 式,也可以是Unicode/Utf8。
[1] [2] [3] [4] [5] [6] 下一页 (中华企业文化网)
|