java字符集编码的自动识别（字符需要编码机器才能识别）

本文目录一览：

1、JAVA 在抓取网页怎么自动识别它的网页编码
2、java中编码与解码分别指什么？
3、几种判断字符集编码的方法（Java）未完
4、Java: 如何知道一个字符串当前是什么字符集?

JAVA 在抓取网页怎么自动识别它的网页编码

1. 看HttpHeader里面是否有一定的encoding; 或者看HTML页面页面的encoding

meta http-equiv="Content-Language" content="zh-CN" /

meta http-equiv="Content-Type" content="text/html; charset=utf-8" /

2. 如果没抛异常, socket就认为只是一直等待, 不知道是否可以设置超时时间, socket肯定是可以的

java字符集编码的自动识别（字符需要编码机器才能识别）

java中编码与解码分别指什么？

java中编码：URLEncoder.encode(strUri,"utf-8");

java中解码码：URLDecoder.decode(strUri,"utf-8");

java编码和解码

流读取文件，具有转换编码功能的有：OutputStreamWriter和InputStreamReader，

构造器有如：

InputStreamReader(InputStream in, String charsetName)

创建使用指定字符集的 InputStreamReader。

OutputStreamWriter(OutputStream out, String charsetName)

创建使用指定字符集的 OutputStreamWriter。

处理字符串编码问题：

重新对获取的字符串进行编码：Byte[] bytes = str.getBytes(String encodeCharsetNam);

重新对bytes进行解码，创建新的字符串对象：str = new String(Byte[] bytes,String decodeCharsetName);

一般结合使用：str = new String(str.getBytes(String encodeCharsetName),String decodeCharsetName);

例如：resultName=new String(username.getBytes("ISO-8859-1"),"UTF-8");

还可以加入判断：

if(!Charset.forName("gbk").newEncoder().canEncode(str)){str = new Strin(str.getBytes("ISO-8859-1"),"UTF-8");}else{str = new String(str.getBytes("ISO-8859-1"),"gbk");}

处理请求参数传递编码问题：

java中编码：URLEncoder.encode(strUri,"utf-8");

java中解码码：URLDecoder.decode(strUri,"utf-8");

js中编码：encodeURIComponent(strUri);encodeURI(strUri);escape(str);

js中解码：decodeURIComponent(strUri);decodeURI(strUri);unescape(str);

补充概念：

URI组件：主机、端口、路径、查询参数、片段等。

URI组件分隔符：:/?#[]@,冒号用于分隔协议和主机，/用于分隔主机和路径，?用于分隔路径和查询参数，用于分隔多个查询参数等。

URI中的不安全字符或保留字符： ! * ‘ ( ) ; : @ = + $ , / ? # [ ] 他们具有特殊作用，例如上面的分隔作用。

URI允许出现的字符：只允许包含英文字母（a-zA-Z）、数字（0-9）、-_.~4个特殊字符以及所有保留字符，其他字符均需要经过编码之后才能出现在Url中，比如使用保留字符的原意，而不是特殊作用。

js向java/jsp的编码与解码：

js中编码：encodeURI(encodeURI(strUri));decodeURIComponent(decodeURIComponent(strUri));

java/jsp中解码： java.net.URLDecoder.decode(strUri,"UTF-8");

js中编码两次的问题：如果使用一次编码，在浏览器地址栏里，浏览器认为%是个转义字符，浏览器会把%与%之间的编码值，两位两位取出后进行解码。

然后再传递给处理页面，然后由处理页面进行再次解码，这样前面就缺少了一次编码过程，所以前面需要连续两次编码。

几种判断字符集编码的方法（Java）未完

如果是Java的String对象的话，则一定是Unicode的，这个没有为什么，Java就是这么定的。

我猜你的问题应该是如何判断一段字节流是什么编码类型，对吗？比如一个文件，或是网络上面取下来的一段Byte数组，你需要用一个合适的编码来解析成字符串。

这个让你失望了，没有一个文档化的，确定的方法来判断，只能用测试的方法，这个方法也只是猜测，不能百分百的确定，方法如下：

用常见的编码方式对字节流进行解码，比如Unicode，UTF8， UTF8 without BOM, UTF16, ANSI等等。

对解析的结果进行判断，是不是一个合理的可打印字符，可打印字符最多的解码方式就是最可能的编码了。

如何判断可打印字符？流程如下：把解析好的字符串按照字符进行遍历，把每一个字符转化成Unicode编码，看看这些编码是不是Unicode的支持范围极客。

如果发现有种编码方式都是可打印字符，那么再使用本步骤：对字符串进行分词，分词这个在此不作赘述，你自己再研究一下。分词效果好的就是最可能的编码了。（不过通常到第三步就能搞定了，第四部绝大部分用不着）

Java: 如何知道一个字符串当前是什么字符集?

判断java字符串的字符集有多种方法，我们一一讨论如下：

1、通过把未知编码字符串,用猜想的编码再解码,观察字符串是不是正确还原了。

原理:假如目标编码没有数组中的字符,那么编码会破坏,无法还原。

缺点:假如字符少,而正巧错误的猜想编码中有这种字节,就会出错。

如:new String("tested str".getBytes("enc"),"enc")

2、大多数时候,我们只要判断本地平台编码和utf8,utf8编码相当有规律,所以可以分析是否是utf8,否则使用本地编码。

原理:分析byte[]来判断规律。

缺点:有时,个别本地编码字节在utf8中也会出现,导致出错,需要分析。

如：判断是否utf-8代码：

public static boolean isValidUtf8(byte[] b,int aMaxCount){

int lLen=b.length,lCharCount=0;

for(int i=0;i

byte lByte=b[i++];//to fast operation, ++ now, ready for the following for(;;)

if(lByte=0) continue;//=0 is normal ascii

if(lByte(byte)0xc0 || lByte(byte)0xfd) return false;

int lCount=lByte(byte)0xfc?5:lByte(byte)0xf8?4

:lByte(byte)0xf0?3:lByte(byte)0xe0?2:1;

if(i+lCountlLen) return false;

for(int j=0;j=(byte)0xc0) return false;

}

return true;

}

3.按编码规则,一字字比照。

优点是错物更少,缺点是太费资源。

java识别json,java识别二维码

本文目录一览： 1、求助，java如何判断json中的null 2、java 如何判断json是对象还是对象数组 3、java 解析json有几种方式 4、java中如何读取json文件，在本地有E:

2023-12-08

java文字识别,java ocr文字识别

2023-01-06

java编码,java编码约定中对类的要求

2023-01-05

python字符编码笔记（python默认字符编码）

2022-11-10

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java字符集编码的自动识别（字符需要编码机器才能识别）

本文目录一览：

JAVA 在抓取网页怎么自动识别它的网页编码

java中编码与解码分别指什么？

几种判断字符集编码的方法（Java）未完

Java: 如何知道一个字符串当前是什么字符集?

java字符集编码的自动识别（字符需要编码机器才能识别）

java基础知识学习笔记一,Java基础笔记

java文字识别,java文字识别技术亲测,识别率很高

java地址电话自动识别,java地址电话自动识别代码

java代码是如何被机器识别的（java代码是如何被机器识别

java知识点,java重要知识点笔记

java验证码识别,Java识别验证码

java字符集,java字符集编码格式转换

关于java基础知识笔记1的信息

java笔记,尚硅谷java笔记

Java字符编码

java字符编码系列文章摘抄,java语言字符码集

java基础知识常思考（java基础知识点笔记）

java字符编码,java字符编码过滤器源码

java图片识别动物,图片识别动物

java字符编码,java字符编码表

java识别json,java识别二维码

java文字识别,java ocr文字识别

java编码,java编码约定中对类的要求

python字符编码笔记（python默认字符编码）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

java字符集编码的自动识别（字符需要编码机器才能识别）

本文目录一览：

JAVA 在抓取网页 怎么自动识别它的网页编码

java中编码与解码分别指什么？

几种判断字符集编码的方法（Java） 未完

Java: 如何知道一个字符串当前是什么字符集?

java字符集编码的自动识别（字符需要编码机器才能识别）

java基础知识学习笔记一,Java基础笔记

java文字识别,java文字识别技术亲测,识别率很高

java地址电话自动识别,java地址电话自动识别代码

java代码是如何被机器识别的（java代码是如何被机器识别

java知识点,java重要知识点笔记

java验证码识别,Java识别验证码

java字符集,java字符集编码格式转换

关于java基础知识笔记1的信息

java笔记,尚硅谷java笔记

Java字符编码

java字符编码系列文章摘抄,java语言字符码集

java基础知识常思考（java基础知识点笔记）

java字符编码,java字符编码过滤器源码

java图片识别动物,图片 识别 动物

java字符编码,java字符编码表

java识别json,java识别二维码

java文字识别,java ocr文字识别

java编码,java编码约定中对类的要求

python字符编码笔记（python默认字符编码）

人机检测，请谅解

JAVA 在抓取网页怎么自动识别它的网页编码

几种判断字符集编码的方法（Java）未完

java图片识别动物,图片识别动物