关于java中的字符集编码入门1的信息

本文目录一览：

1、如何查找默认的字符集/编码在Java中
2、Java中的字符使用什么编码
3、JAVA中怎样改变本地字符集编码
4、java怎么查看一段中文是什么编码格式
5、Java语言所使用的字符集是什么？
6、如何在JAVA中定义自己的字符集

如何查找默认的字符集/编码在Java中

1, Java代码直接设置

System.out.println(System.getProperty("file.encoding"));

或

System.out.println(Charset.defaultCharset());

2，eclipse里面选中工程-properties-Resource:text file encoding 改成你的原文件编码格式即可；

3，一般配置jdbc连接字符串的时候可以指定字符编码集，指定成和数据库的编码一致即可，这样用jdbc读出来的数据就是解码后的正常的数据。当然，不同的数据库产品具体看怎么办。

关于java中的字符集编码入门1的信息

Java中的字符使用什么编码

System.out.println(Charset.defaultCharset()); 字符编码（英语：Character encoding）也称字集码，是把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8位组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递...

JAVA中怎样改变本地字符集编码

System.out.println(new String(strInfo.getBytes("ISO-8859-1"),"gb2312")); 你在输出的时候这么转码，还会输出乱码，见鬼了

java怎么查看一段中文是什么编码格式

Java如何获取文件编码格式

1：简单判断是UTF-8或不是UTF-8，因为一般除了UTF-8之外就是GBK，所以就设置默认为GBK。

按照给定的字符集存储文件时，在文件的最开头的三个字节中就有可能存储着编码信息，所以，基本的原理就是只要读出文件前三个字节，判定这些字节的值，就可以得知其编码的格式。其实，如果项目运行的平台就是中文操作系统，如果这些文本文件在项目内产生，即开发人员可以控制文本的编码格式，只要判定两种常见的编码就可以了：GBK和UTF-8。由于中文Windows默认的编码是GBK，所以一般只要判定UTF-8编码格式。

对于UTF-8编码格式的文本文件，其前3个字节的值就是-17、-69、-65，所以，判定是否是UTF-8编码格式的代码片段如下：

File file = new File(path);

InputStream in= new java.io.FileInputStream(file);

byte[] b = new byte[3];

in.read(b);

in.close();

if (b[0] == -17 b[1] == -69 b[2] == -65)

System.out.println(file.getName() + "：编码为UTF-8");

else

System.out.println(file.getName() + "：可能是GBK，也可能是其他编码");

2：若想实现更复杂的文件编码检测，可以使用一个开源项目cpdetector，它所在的网址是：。它的类库很小，只有500K左右，cpDetector是基于统计学原理的，不保证完全正确，利用该类库判定文本文件的代码如下：

读外部文件(先利用cpdetector检测文件的编码格式，然后用检测到的编码方式去读文件):

/**

* 利用第三方开源包cpdetector获取文件编码格式

* @param path

* 要判断文件编码格式的源文件的路径

* @author huanglei

* @version 2012-7-12 14:05

public static String getFileEncode(String path) {

* detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

* cpDetector内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法加进来，如ParsingDetector、

* JChardetFacade、ASCIIDetector、UnicodeDetector。

* detector按照“谁最先返回非空的探测结果，就以该结果为准”的原则返回探测到的

* 字符集编码。使用需要用到三个第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar

* cpDetector是基于统计学原理的，不保证完全正确。

CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();

* ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于

* 指示是否显示探测过程的详细信息，为false不显示。

detector.add(new ParsingDetector(false));

* JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成大多数文件的编码

* 测定。所以，一般有了这个探测器就可满足大多数项目的要求，如果你还不放心，可以

* 再多加几个探测器，比如下面的ASCIIDetector、UnicodeDetector等。

detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar

// ASCIIDetector用于ASCII编码测定

detector.add(ASCIIDetector.getInstance());

// UnicodeDetector用于Unicode家族编码的测定

detector.add(UnicodeDetector.getInstance());

java.nio.charset.Charset charset = null;

File f = new File(path);

try {

charset = detector.detectCodepage(f.toURI().toURL());

} catch (Exception ex) {

ex.printStackTrace();

}

if (charset != null)

return charset.name();

else

return null;

}

String charsetName = getFileEncode(configFilePath);

System.out.println(charsetName);

inputStream = new FileInputStream(configFile);

BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

读jar包内部资源文件(先利用cpdetector检测jar内部的资源文件的编码格式，然后以检测到的编码方式去读文件)：

/**

* 利用第三方开源包cpdetector获取URL对应的文件编码

* @param path

* 要判断文件编码格式的源文件的URL

* @author huanglei

* @version 2012-7-12 14:05

public static String getFileEncode(URL url) {

* detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

* cpDetector内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法加进来，如ParsingDetector、

* JChardetFacade、ASCIIDetector、UnicodeDetector。

* detector按照“谁最先返回非空的探测结果，就以该结果为准”的原则返回探测到的

* 字符集编码。使用需要用到三个第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar

* cpDetector是基于统计学原理的，不保证完全正确。

CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();

* ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于

* 指示是否显示探测过程的详细信息，为false不显示。

detector.add(new ParsingDetector(false));

* JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成大多数文件的编码

* 测定。所以，一般有了这个探测器就可满足大多数项目的要求，如果你还不放心，可以

* 再多加几个探测器，比如下面的ASCIIDetector、UnicodeDetector等。

detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar

// ASCIIDetector用于ASCII编码测定

detector.add(ASCIIDetector.getInstance());

// UnicodeDetector用于Unicode家族编码的测定

detector.add(UnicodeDetector.getInstance());

java.nio.charset.Charset charset = null;

try {

charset = detector.detectCodepage(url);

} catch (Exception ex) {

ex.printStackTrace();

}

if (charset != null)

return charset.name();

else

return null;

}

URL url = CreateStationTreeModel.class.getResource("/resource/" + "配置文件");

URLConnection urlConnection = url.openConnection();

inputStream=urlConnection.getInputStream();

String charsetName = getFileEncode(url);

System.out.println(charsetName);

BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

3：探测任意输入的文本流的编码，方法是调用其重载形式：

charset=detector.detectCodepage(待测的文本输入流,测量该流所需的读入字节数);

上面的字节数由程序员指定，字节数越多，判定越准确，当然时间也花得越长。要注意，字节数的指定不能超过文本流的最大长度。

4：判定文件编码的具体应用举例：

属性文件(.properties)是Java程序中的常用文本存储方式，象STRUTS框架就是利用属性文件存储程序中的字符串资源。它的内容如下所示：

#注释语句

属性名=属性值

读入属性文件的一般方法是：

FileInputStream ios=new FileInputStream(“属性文件名”);

Properties prop=new Properties();

prop.load(ios);

String value=prop.getProperty(“属性名”);

ios.close();

利用java.io.Properties的load方法读入属性文件虽然方便，但如果属性文件中有中文，在读入之后就会发现出现乱码现象。发生这个原因是load方法使用字节流读入文本，在读入后需要将字节流编码成为字符串，而它使用的编码是“iso-8859-1”,这个字符集是ASCII码字符集，不支持中文编码，

方法一：使用显式的转码：

String value=prop.getProperty(“属性名”);

String encValue=new String(value.getBytes(“iso-8859-1″),”属性文件的实际编码”);

方法二：象这种属性文件是项目内部的，我们可以控制属性文件的编码格式，比如约定采用Windows内定的GBK，就直接利用”gbk”来转码，如果约定采用UTF-8，就使用”UTF-8″直接转码。

方法三：如果想灵活一些，做到自动探测编码，就可利用上面介绍的方法测定属性文件的编码，从而方便开发人员的工作

补充：可以用下面代码获得Java支持编码集合：

Charset.availableCharsets().keySet();

可以用下面的代码获得系统默认编码：

Charset.defaultCharset();

Java语言所使用的字符集是什么？

Java语言所使用的字符集是16位Unicode编码。另外再介绍一些常见的字符集：

1、最早在dos下写pascal的时候，就遇到ASCII字符集，后来还是dos下写c，也是ascii字符集

特点：目前最通用的单字节编码字符集

表示：单字节

最早ascii用7bit表示，总共能表示2^7=128个字符，后来扩展到8bit，就表示2^8=256个字符

2、GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集·基本集》，由原中国国家标准总局发布，1981年5月1日实施。

特点：当然是能表示99%的中国汉字，还包括拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母等

表示：双字节

3、GBK是汉字编码标准之一，全称《汉字内码扩展规范》，GBK 向下与GB2312编码兼容，向上支持ISO10646.1国际标准。可以认为GBK是在GB2313基础上通过内码扩展出来的一个标准。

特点：完全兼容GB2312标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字

表示：双字节

4、Big5，台湾那边使用比较多。

5、GB 18030，全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于2000年3月17日发布的新的汉字编码国家标准，2001年8月31日后在中国市场上发布的软件必须符合本标准。

特点：就是强大。覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容，填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准（GB2312，GB13000.1）兼容。

表示：单字节、双字节、四字节三种方式

6、Unicode野心更大（当然有一个国际统一标准当然是好事）

特点：Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

表示：utf-8,utf-16,utf-32

这里可能有点不好理解，举个例子

首先，把unicode理解成对所有字符做了一个统一的编号，比如：“字”这个字符，编号是23383，这个是unicode定义的

但是，在计算机中，如何存储这个编号呢？方式就有很多，存储unicode的方式，就是utf-8,utf-16,utf-32

23383数值的16进制表示：0x5b57

utf-8用3个字节来表示汉字，所以utf-8的表示为：0xE5AD97

utf-16用2个字节来表示汉字，所以utf-16的表示为：0x5b57 刚好和数值是一样的

utf-32用4个字节来表示汉字，所以utf-32的表示为：0x00005b57 和数值是一样的，不过浪费空间

7、再来讲讲utf-8，它是一种变长的字符集

表示：单字节来表示字母，双字节来表示一些希腊字母，三字节来表示汉字，当然也有四字节的

这么做当然会增加表示和识别的难度，不过，可以节省空间。这也是为什么utf-8在网络编码中流行的原因。

如何在JAVA中定义自己的字符集

java中定义一个字符串数组方式如下：

1.String[] str={"AAA","BBB","CCC"};

2.String str[]={"AAA","BBB","CCC"};

string类型和其他基本类型相似，创建数组时，有上述两种方式。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

关于java中的字符集编码入门1的信息

本文目录一览：

如何查找默认的字符集/编码在Java中

Java中的字符使用什么编码

JAVA中怎样改变本地字符集编码

java怎么查看一段中文是什么编码格式

Java语言所使用的字符集是什么？

如何在JAVA中定义自己的字符集

关于java中的字符集编码入门1的信息

关于java基础知识笔记1的信息

关于java学习笔记良葛格的信息

关于已前的学习笔记java的信息

关于java性能的小笔记（java代码性能分析）

关于java什么是集中式的信息

java学习笔记（java初学笔记）

关于python学习第四次笔记的信息

javascript入门笔记1的简单介绍

印象笔记记录java学习（Java成长笔记）

java笔记,尚硅谷java笔记

java基础知识学习笔记一,Java基础笔记

发篇java复习笔记（java课程笔记）

重学java笔记,java笔记总结

java日期类学习笔记（java的时间日期类型）

java第九天笔记,java第九章

java基础第一天学习笔记（java课程笔记）

java学习的一些基础笔记（java初学笔记）

每日java学习笔记（java高手笔记）

关于python学习笔记第十四周的信息

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

关于java中的字符集编码入门1的信息

本文目录一览：

如何查找默认的字符集/编码在Java中

Java中的字符使用什么编码

JAVA中怎样改变本地字符集编码

java怎么查看一段中文是什么编码格式

Java语言所使用的字符集是什么？

如何在JAVA中定义自己的字符集

关于java中的字符集编码入门1的信息

关于java基础知识笔记1的信息

关于java学习笔记良葛格的信息

关于已前的学习笔记java的信息

关于java性能的小笔记（java代码性能分析）

关于java什么是集中式的信息

java学习笔记（java初学笔记）

关于python学习第四次笔记的信息

javascript入门笔记1的简单介绍

印象笔记记录java学习（Java成长笔记）

java笔记,尚硅谷java笔记

java基础知识学习笔记一,Java基础笔记

发篇java复习笔记（java课程笔记）

重学java笔记,java笔记总结

java日期类学习笔记（java的时间日期类型）

java第九天笔记,java第九章

java基础第一天学习笔记（java课程笔记）

java学习的一些基础笔记（java初学笔记）

每日java学习笔记（java高手笔记）

关于python学习笔记第十四周的信息

人机检测，请谅解