一、 中文字符编码
1、中文字符的编码方式是指将中文字符转换成计算机能够识别的二进制数字表示。目前主要使用的中文字符编码方式有GBK、GB2312、Unicode、UTF-8等。
2、GBK和GB2312是中国国家标准,前者包括了简体中文和繁体中文,后者仅支持简体中文。它们都使用双字节表示一个中文字符。
3、Unicode是国际标准,它用4个字节表示一个中文字符。而UTF-8是一种可变长度的编码方式,中文字符占用3个字节。
// 示例:使用Java获取字符编码 String str = "一个中文"; byte[] bytes = str.getBytes("UTF-8"); System.out.println(Arrays.toString(bytes)); // [-28, -67, -96, -25, -98, -117, -26, -106, -121]
二、 在程序中使用中文字符
1、在程序中使用中文字符需要格外注意编码方式的匹配,否则会出现乱码的情况。
2、在Java中,如果源代码中包含中文字符,需要指定源文件编码方式为UTF-8并且在Java文件开头添加注释 // -*- coding:utf-8 -*-。
// 示例:Java中使用中文字符 // -*- coding:utf-8 -*- public class Main { public static void main(String[] args) { String name = "张三"; System.out.println("你好," + name); } }
三、 在数据库中使用中文字符
1、在数据库中储存中文字符也需要考虑编码方式的匹配问题,一般常用的编码方式是UTF-8。
2、当向数据库插入中文字符时,需要使用PreparedStatement并设置编码方式为UTF-8。
// 示例:Java向MySQL数据库插入中文字符 String name = "张三"; Class.forName("com.mysql.cj.jdbc.Driver"); Connection conn = DriverManager.getConnection("jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false", "root", "password"); PreparedStatement stmt = conn.prepareStatement("INSERT INTO user (name) VALUES (?)"); stmt.setString(1, name); stmt.executeUpdate(); stmt.close(); conn.close();
四、 中文字符的长度问题
1、在程序中,一个中文字符占用的字节数与编码方式有关,不能简单地将一个中文字符看成两个字节。
2、在Java中,可以使用length()方法获取字符串的长度。但是对于包含中文字符的字符串,不一定等于实际的字符数。
// 示例:Java中获取含有中文字符的字符串的长度 String str = "一个中文"; System.out.println(str.length()); // 4 System.out.println(str.getBytes("UTF-8").length); // 9
五、 中文字符的处理方式
1、在程序中处理中文字符时,需要注意编码方式的匹配、长度的计算、乱码的处理等问题。
2、为了避免出现问题,可以封装工具类来处理中文字符,统一使用一种编码方式(如UTF-8),并进行合理的错误处理。
// 示例:Java中封装中文字符处理工具类 public class ChineseUtil { public static String getUTF8String(String str) { return getUTF8String(str, "GBK"); } public static String getUTF8String(String str, String charset) { if (str != null && !str.trim().equals("")) { try { byte[] bytes = str.getBytes(charset); return new String(bytes, "UTF-8"); } catch (Exception e) { e.printStackTrace(); } } return ""; } }