内核恐慌 67

42. Kerning Panic·字谈字串（二） (02:02:57)

发布时间: 2016-07-26 16:47:04

本期 123 分钟，我们着眼汉字，回望字符集发展简史，一览常见遗留编码，笑看端序内战风云，携手拥抱 Unicode。参考链接「纽伦堡内麦塔狐」，典出《字谈字畅》第二十三期曲（qū/qǔ），麯 / 麴 (qū) 区位码)的「区位」即「row-cell」，日语称「区点」 Ten key 算术基本定理各国读写电话号码的习惯；另有 ITU-T 起草的推荐规范 E.123，包含国际电话号码的注记格式电话编号规划 TeX 指令通常以反斜杠（\）开头各书写系统中的引号「乱码」在几种外语里的表述：文字化け（日语） Mojibake（英语，音译自日语） Zeichensalat（德语，直译即「符号沙拉」） Emoji（音译自日语「絵文字」） ASCII（美国信息交换标准代码） JIS X 0201，七位及八位信息交换用编码字符集；前身为制定于 1969 年的 JIS C 6220，是日本最早的编码字符集规范 JIS X 0208，七位及八位双字节信息交换用汉字编码字符集 언문（諺文） / 한글（韩字） / 조선글（朝鲜字），英语通称 Hangul 半角片假名编码，《内核恐慌》第十八期 GB 2312，信息交换用汉字编码字符集·基本集 GBK，汉字内码扩展规范；Windows 系统的代码页 CP936 是它的一个实现 GB 18030，信息技术——中文编码字符集 GB 12345，信息交换用汉字编码字符集·辅助集单射「干 / 乾」这对字具有「一繁对多简」和「一简对多繁」的双重属性新加坡汉字 / 新马简体 Big5（大五码），港澳台较常用的编码及字符集标准 Code page（代码页） Unicode Unicode BMP（Basic Multilingual Plane，基本多语言平面）#Basic_Multilingual_Plane)，GB 13000.1 与 Unicode BMP 的相关标准基本等同 Unicode 定义的 script) 中日韩统一表意符号（CJK Unified Ideographs）芸（U+82B8），同时为中文「蕓」、日文「藝」的简化字 KS X 1001，韩国编码字符集标准，前身为 KS C 5601；对同形异音的汉字进行重复编码日本的「中国地方」「支那」源自梵文 चीन (cīna)) Ken Lunde. CJKV Information Processing, 2nd Edition. O’Reilly Media, 2009 当下 Unicode 最常用的三种编码格式： UTF-8 UTF-16 UTF-32 Rio 撰于 2012 年的 Unicode 编码相关知识的笔记 Surrogate pair，用于 UTF-16，借以扩展可编码字符集的范围 Endianness（端序），该术语典出《格列佛游记》小人国内的两个教派 BOM（byte order mark，字节顺序标记），对应的字符是 U+FEFF (Zero Width No-break Space) (U+1F574, Man in Business Suit Levitating) 主播 Rio：IPN 联合创始人，Apple4us 程序员，《IT 公论》《疯投圈》及《内核恐慌》主播吴涛：Type is Beautiful 程序员，《内核恐慌》主播 Eric：字体排印研究者，译者，Type is Beautiful 编辑蒸鱼：设计师，Type is Beautiful 编辑