当前位置:首页 » 编程语言 » javacharset

javacharset

发布时间: 2023-02-22 07:01:19

java采用什么字符集

Java语言所使用的字符集是16位Unicode编码。另外再介绍一些常见的字符集:

1、最早在dos下写pascal的时候,就遇到ASCII字符集,后来还是dos下写c,也是ascii字符集
特点:目前最通用的单字节编码字符集
表示:单字节
最早ascii用7bit表示,总共能表示2^7=128个字符,后来扩展到8bit,就表示2^8=256个字符
2、GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。
特点:当然是能表示99%的中国汉字,还包括拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母等
表示:双字节
3、GBK是汉字编码标准之一,全称《汉字内码扩展规范》,GBK 向下与GB2312编码兼容,向上支持ISO10646.1国际标准。可以认为GBK是在GB2313基础上通过内码扩展出来的一个标准。
特点:完全兼容GB2312标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字
表示:双字节
4、Big5,台湾那边使用比较多。
5、GB 18030,全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。
特点:就是强大。覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
表示:单字节、双字节、四字节三种方式
6、Unicode野心更大(当然有一个国际统一标准当然是好事)
特点:Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
表示:utf-8,utf-16,utf-32
这里可能有点不好理解,举个例子
首先,把unicode理解成对所有字符做了一个统一的编号,比如:“字”这个字符,编号是23383,这个是unicode定义的
但是,在计算机中,如何存储这个编号呢?方式就有很多,存储unicode的方式,就是utf-8,utf-16,utf-32
23383数值的16进制表示:0x5b57
utf-8用3个字节来表示汉字,所以utf-8的表示为:0xE5AD97
utf-16用2个字节来表示汉字,所以utf-16的表示为:0x5b57 刚好和数值是一样的
utf-32用4个字节来表示汉字,所以utf-32的表示为:0x00005b57 和数值是一样的,不过浪费空间
7、再来讲讲utf-8,它是一种变长的字符集
表示:单字节来表示字母,双字节来表示一些希腊字母,三字节来表示汉字,当然也有四字节的
这么做当然会增加表示和识别的难度,不过,可以节省空间。这也是为什么utf-8在网络编码中流行的原因。

Ⅱ Java中字符集有哪些呢

字符集(character set)是一个系统支持的所有抽象字符的集合。字符(character)就是各种文字和符号,包括国家文字、标点符号、图形符号、数字等。

如果仅仅是抽象的字符集,其实是顾名思义的,但是我们常说的字符集,其实是指编码字符集(coded character set),比如: Unicode、ASCII、GB2312、GBK等等。什么是编码字符集呢?编码字符集是指,这个字符集里的每一个字符,都对应到唯一的一个代码值,这些代码值叫做代码点(code point),可以看做是这个字符在编码字符集里的序号,字符在给定的编码方式下的二进制比特序列称为代码单元(code unit)。在Unicode字符集中,字母A对应的数值是十六进制下的0041,书写时前面加U+,所以Unicode里A的代码点是U+0041。

常见的编码字符集有:

  • Unicode:也叫统一字符集,它包含了几乎世界上所有的已经发现且需要使用的字符(如中文、日文、英文、德文等)。

  • ASCII:早期的计算机系统只能处理英文,所以ASCII也就成为了计算机的缺省字符集,包含了英文所需要的所有字符。

  • GB2312:中文字符集,包含ASCII字符集。ASCII部分用单字节表示,剩余部分用双字节表示。

  • GBK:GB2312的扩展,完整包含了GB2312的所有内容。

  • GB18030:GBK字符集的超集,常叫大汉字字符集,也叫CJK(Chinese,Japanese,Korea)字符集,包含了中、日、韩三国语言中的所有字符。

学习相关java类知识,推荐来北京尚学堂,优秀的师资和科学的授课方式,会带给你完美的学习体验。

Ⅲ java 关于编码charset ,pageEncoding ,characterEncoding是指什么

都是指字符集编码,
据我所知,charset是html网页里用,pageEncoding是jsp里见到,characterEncoding我在mysql数据库传参数时见到过,不同场合而已。
字符在不同地方传递,免不了转换,这些写对了才能避免乱码。

Ⅳ java中的Charset类,为什麽我们都是写成字符串的形式

这没什么的,它只不过增加了一个字符串参数的构造函数而已
你写一个类,默认的构造函数都是不带参数的,但是你也可以增加若干个构造函数带不同的参数,但是两个构造函数传得参数个数或者类型必须是不同的。
执行时会根据参数的不同,自动调用对应的构造函数

Ⅳ Java里怎样设置Charset

1 默认的charset是当前操作系统使用的,通过 java.nio.Charset的方法

Charset.defaultCharset()

获取。

2 在启动JVM时,可以 使用 JVM参数 file.encoding 或者环境变量 JAVA_TOOLS_OPTIONS更改默认的charset。

java-Dfile.encoding=utf-8MainClass

或者

setJAVA_TOOLS_OPTIONS="-Dfile.encoding=UTF-8"

3 java IO 类,String等通过在构造方法,传参数指定需要的Charset。查看:

https://docs.oracle.com/javase/7/docs/api/java/nio/charset/class-use/Charset.html

Ⅵ Java如何设置字节序

软件包 java.nio.charset 的描述
定义用来在字节和 Unicode 字符之间转换的 charset、解码器和编码器。
类名描述Charset 字符和字节之间的命名映射关系
CharsetDecoder 把字节解码为字符
CharsetEncoder 把字符编码为字节
CoderResult 描述 coder 的结果
CodingErrorAction 描述检测到编码错误时所采取的操作
charset 是 16 位 Unicode 字符序列和字节序列之间的命名映射关系,从某种意义上来说,在 RFC 2278 中对其进行了定义。解码器 是把一个特定 charset 中的字节转换成字符的引擎,编码器 是把字符转换成字节的引擎。编码器和解码器在字节和字符缓冲区上操作。它们共同被称为 coder。
Charset 类定义了为给定的 charset 创建 coder 的方法和检索与某个 charset 相关的名称的方法。它还定义了用于测试是否支持特定 charset 的静态方法、通过名称查找 charset 实例的静态方法,以及构造一个包含目前 Java 虚拟机支持的每个 charset 的映射静态方法。
大多数用户不直接使用这些类;他们使用 String 类中存在的和 charset 有关的构造方法和方法,一起使用的还有 InputStreamReader 和 OutputStreamWriter 类,为了利用此包中定义的 charset 设施,所有这些类的实现都被重写。为了在构造这些类的实例时显式地指定 charset 对象,已经对 InputStreamReader 和 OutputStreamWriter 类做了一些更改。
通过在 java.nio.charset.spi 包中的 CharsetProvider 类中定义的接口,可提供对新 charset 的支持。
标准 charset
Java 平台的每一种实现都需要支持以下标准 charset。请参考该实现的版本文档,查看是否支持其他 charset。这些可选 charset 的行为在不同的实现之间可能有所不同。
Charset描述US-ASCII 7 位 ASCII 字符,也叫作 ISO646-US、Unicode 字符集的基本拉丁块
ISO-8859-1 ISO 拉丁字母表 No.1,也叫作 ISO-LATIN-1
UTF-8 8 位 UCS 转换格式
UTF-16BE 16 位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序
UTF-16LE 16 位 UCS 转换格式,Little-endian(最高地址存放低位字节)字节顺序
UTF-16 16 位 UCS 转换格式,字节顺序由可选的字节顺序标记来标识
UTF-8 charset 在 RFC 2279 中指定;它所基于的转换格式在 ISO 10646-1 的 Amendment 2 中指定,并在 Unicode Standard 中也有所描述。
UTF-16 charset 在 RFC 2781 中指定;它们基于的转换格式在 ISO10646-1 的 Amendment 1 中指定,并在 Unicode Standard 中也有所描述。
UTF-16 charset 使用 16 位量,因此对字节顺序敏感。在这些编码中,流的字节顺序可以由 Unicode 字符 'FF' 所表示的初始字节顺序标记 来指示。按以下方式处理字节顺序标记:
进行解码时,UTF-16BE 和 UTF-16LE charset 忽略字节顺序标记;进行编码时,不写入字节顺序标记。
进行解码时,UTF-16 charset 解释字节顺序标记,以指示流的字节顺序,但是如果没有字节顺序标记,则默认使用 Big Endian;进行编码时,使用 Big Endian 字节顺序并写入 Big Endian 字节顺序标记。
在任何情况中,在解码操作的开始读取字节顺序标记时,将在结果字符序列中忽略该标记。字节顺序标记出现在输入序列的第一个元素之后时,由于使用相同的代码表示零宽度不间断空格,所以不忽略该标记。
Java 虚拟机的每个实例都有默认的 charset,它可能是也可能不是某个标准 charset。

Ⅶ 如何获取java源文件编码格式

java中主要使用charset这个类来判断文件的编码格式,代码如下:

packagecom.ghj.packageoftool;

importinfo.monitorenter.cpdetector.io.ASCIIDetector;
importinfo.monitorenter.cpdetector.io.ByteOrderMarkDetector;
importinfo.monitorenter.cpdetector.io.CodepageDetectorProxy;
importinfo.monitorenter.cpdetector.io.JChardetFacade;
importinfo.monitorenter.cpdetector.io.ParsingDetector;
importinfo.monitorenter.cpdetector.io.UnicodeDetector;

importjava.io.ByteArrayInputStream;
importjava.io.File;
importjava.io.InputStream;
importjava.net.URL;
importjava.nio.charset.Charset;

/**
*文件工具类
*
*@author高焕杰
*/
publicclassFileTool{

/**
*获取本地文件的编码格式
*
*@paramfile要判断的文件编码格式
*
*@author高焕杰
*/
(FilelocalFile){

/*
*cpDetector是探测器,它把探测任务交给具体的探测实现类的实例完成。
*cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法加进来,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的字符集编码。cpDetector是基于统计学原理的,不保证完全正确。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于指示是否显示探测过程的详细信息,为false不显示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(newByteOrderMarkDetector());
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用于ASCII编码测定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用于Unicode家族编码的测定
Charsetcharset=null;
try{
charset=codepageDetector.detectCodepage(localFile.toURI().toURL());
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}

/**
*获得远程URL文件的编码格式
*
*@paramurl远程文件的URL路径
*
*@author高焕杰
*/
(URLurl){

/*
*cpDetector是探测器,它把探测任务交给具体的探测实现类的实例完成。
*cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法加进来,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的字符集编码。cpDetector是基于统计学原理的,不保证完全正确。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于指示是否显示探测过程的详细信息,为false不显示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用于ASCII编码测定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用于Unicode家族编码的测定
Charsetcharset=null;
try{
charset=codepageDetector.detectCodepage(url);
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}

/**
*获得文件流的编码格式
*
*@paraminputStream文件流
*
*@author高焕杰
*/
(InputStreaminputStream){

/*
*cpDetector是探测器,它把探测任务交给具体的探测实现类的实例完成。
*cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法加进来,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的字符集编码。cpDetector是基于统计学原理的,不保证完全正确。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于指示是否显示探测过程的详细信息,为false不显示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用于ASCII编码测定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用于Unicode家族编码的测定
Charsetcharset=null;
try{
charset=codepageDetector.detectCodepage(inputStream,0);
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}

/**
*获得字符串的编码格式
*
*@paramstringValue要判断的文件编码格式字符串
*
*@author高焕杰
*/
(StringstringValue){

/*
*cpDetector是探测器,它把探测任务交给具体的探测实现类的实例完成。
*cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法加进来,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的字符集编码。cpDetector是基于统计学原理的,不保证完全正确。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于指示是否显示探测过程的详细信息,为false不显示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用于ASCII编码测定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用于Unicode家族编码的测定
Charsetcharset=null;
try{
InputStreaminputStream=newByteArrayInputStream(stringValue.getBytes());
charset=codepageDetector.detectCodepage(inputStream,3);
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}
}

Ⅷ java中charset怎么赋值

可以直接在开发工具中设置java文件的编码:
eclipse文件编码设置:
1. 点击window。
2. 在列表最下点击reference。
3. 在reference界面点击Workspace
4. 在右边的Tex file encoding点击Other。
5. 选择 GBK或者 UTF-8编码即可。

热点内容
unlinklinux 发布:2024-11-08 02:31:30 浏览:663
nginxphp编译 发布:2024-11-08 02:11:57 浏览:979
粉笔手机号注册的密码是什么 发布:2024-11-08 02:01:49 浏览:249
漆黑的魅影文件夹 发布:2024-11-08 01:55:15 浏览:691
c语言病毒编写 发布:2024-11-08 01:55:03 浏览:989
原神修改密码的格式是什么 发布:2024-11-08 01:53:49 浏览:728
从安卓转移数据到苹果报无法通信是什么问题 发布:2024-11-08 01:40:27 浏览:289
云存储虚拟化 发布:2024-11-08 01:32:27 浏览:101
小米10青春版怎么修改密码 发布:2024-11-08 01:31:03 浏览:270
垃圾胡算法 发布:2024-11-08 01:24:39 浏览:237