JAVA高级面试进阶训练营视频教程

admin · 发表于 2021-6-23 12:00:18

Ascii码（American Standard Code for Information Interchange，美国信息互换标准代码）：
最初计算机只在美国使用时，只用8位的字节来组合出256（2的8次方）种不同的状态，把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，
拓展字符集：世界各地的都开始使用计算机，一直把序号编到了最后一个状态255。从128到255这一页的字符集被称"扩展字符集"。
GB2312：
GB2312 是对 ASCII 的中文扩展。当计算机传入中国后，规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。这种方案叫做GB2312。
GBK：
后来GB2312方案的汉字不够用了，干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。
GB18030：
后来又加入了加入了几千个少数民族的字，拓展成为GB18030
UNICODE：但全世界各种编码方式无法通行，于是出现了一种无视各种地区编码的世界统一的编码方式~Unicode。在Unicode中，一个字符就是两个字节。规定必须用两个字节，也就是16位来统一表示所有的字符，对于ascii里的那些“半角”字符，UNICODE 包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。
UTF-8：
前面介绍的都是字符集，而UTF-8,UTF-16则是一种编码规则。因为Unicode字符集都是用两个字节来存储的，所以在传输信息的过程中对资源浪费很大，就像原来Ascii码中的字符只需要一个字节来传递。于是出现了UTF-8这种变长的编码规则。
因此UTF-8是基于Unicode的一种编码规则，因此现在最常用的便是UTF-8编码方式。

补充一点：
1.将字符转换为字节的方式称为编码
2.将字节转换为字符的方式称为解码

接下来介绍用pycharm来写爬虫时遇到的乱码问题：

首先打开file中的setting

首先打开file中的setting 再找到Editor中的File Encodings

再找到Editor中的File Encodings
将其中的GlobalEncoding和Project Encoding改为UTF-8即可。
为了以防万一，也可以将文件的编码方式也改为utf-8
pycharm右下角可以更改文件的编码方式

pycharm右下角可以更改文件的编码方式或者在setting中将文件编码改为utf-8

或者在setting中将文件编码改为utf-8

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶训练营视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万大数据入门到精通学习路线	年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

解决pycharm的爬虫乱码问题（初步了解各种编码格式）