解析护照机读码的中文字符

解析护照机读码的中文字符 | 回声

解析护照机读码的中文字符

2022-06-21 03:39:58

# 生活

刷小红书时看到一条使用虚假护照信息进行诈骗的帖子。评论区有网友指出了机读码对应的证件持有人姓名，虽然没有给出具体思路，但考虑到中国人姓名字符集的多样性，不难猜出这是某种国标汉字编码到 ASCII 字符的映射。

如图所示，护照资料页下方的两行黑色 ASCII 字符串即为机读码 (Machine Readable Zone, MRZ)。其中位于第二行后半部分的、长度为 4 的整数倍的英文字符串是经过编码后的持有人姓名，最多可以储存三个汉字。将汉字的 GB2132 的每个 byte 的两位以十六进制分别映射到字母表中，即可获得对应机读码字符串。例如："张" -> "\xd5\xc5" (GB2312) -> [d, 5, c, 5] (hex) -> [14, 6, 13, 6] (10) -> NFMF (MRZ)。

可以通过下面的 Python 代码实现汉字与机读码互转。

import re


def encode(s: str) -> list[str]:
    s = s.encode(encoding='gb2312').hex()
    res = []
    for c in s:
        res.append(chr(ord('a') + int(c, base=16)))
    return "".join(res).upper()


def decode(s: str) -> list[str]:
    t = []
    for c in s:
        t.append(format((ord(c) - ord('A')), 'x'))
    t = re.findall('.{1,2}', "".join(t))
    res = []
    for c in t:
        res.append(int("0x" + c, 16))
    return bytes(res).decode('gb2312')


print(encode('证'))
print(encode('件'))
print(encode('样'))


print(decode('NGKE'))
print(decode('LMPO'))
print(decode('NBPJ'))

1980 年，中国发布了第一个汉字编码标准，也即 GB2312 ，全称《信息交换用汉字编码字符集·基本集》，通常简称 GB （“国标”汉语拼音首字母），共收录了 6763 个常用的汉字和字符，此标准于次年5月实施，它满足了日常 99% 汉字的使用需求。

由于有些汉字是在 GB2312 标准发布之后才简化的，还有一些人名、繁体字、日语和朝鲜语中的汉字也没有包括在内，所以，在 GB2312 的基础上添加了这部分字符，就形成了 GBK ，全称《汉字内码扩展规范》，共收录了两万多个汉字和字符，它完全兼容 GB2312。
GBK 于 1995 年发布，不过它只是 “技术规范指导性文件”，并不属于国家标准。

GB18030 全称《信息技术中文编码字符集》，共收录七万多个汉字和字符，它在 GBK 的基础上增加了中日韩语中的汉字和少数名族的文字及字符，完全兼容 GB2312，基本兼容 GBK。

by 彻底搞明白 GB2312、GBK 和 GB18030 - 知乎

查询字符编码时意外地发现 GBK 和 GB18030 对于 GB2312 完全兼容，因此上文给出的 Python 代码很不严谨，护照可能使用了 GB18030 作为机读码编码。

Recommend

如何在用户离开页面时可靠地发送 HTTP 请求

Linux 网络栈原理、监控与调优：前言

2022年6月份应用App买量趋势洞察

浅析 WLAN 漫游技术

解决 Office 套件多授权冲突

喜马拉雅：烧钱营销赚吆喝，「声」意难润亏损“心田”

Building a Quiz with Eleventy and Eleventy Serverless

Meteor 2.7.2 and the New Tailwind Skeleton

A Pilot To The Megaverse NFT Marketplace Development Company

“IT攻城狮”的“元宇宙” 新华三HCLHub生态社区重磅上线！

About Joyk