python 2.7 如何判断 Unicode 编码字符是否为汉字，如何判断unicode编码句子中是否含...

3 years ago

source link: https://blog.popkx.com/python-2-7-how-to-judge-is-an-unicode-char-chinese-char-and-if-a-sentence-chinese-char-inside/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

python 2.7 如何判断 Unicode 编码字符是否为汉字，如何判断unicode编码句子中是否含有汉字

发表于 2018-09-20 08:09:08 | 已被访问: 967 次 | 分类于: Python | 暂无评论

对于计算机来说，一切都是 0 1 组成的数字，汉字也不例外。因此对于 python 来说，汉字也是可以比较大小的，所以，判断一个 unicode字符是否汉字，只需要判断该字符是否在第一个汉字和最后一个汉字之间即可。

查阅资料，发现对于Unicode编码的汉字，最小为 \u4e00，最大为 \u9fa5，所以，自然的，python 判断一个Unicode字符是否为汉字的代码可以如下写：

def IsChineseChar(uchar):
    if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
        return True
    return False

print IsChineseChar(u'A'),  IsChineseChar(u'我')

发现符合预期：

# python t.py 
False True

进一步的，如果想用python判断一句unicode编码的话中是否含有中文，代码可以如下写：

def IsChineseCharInside(sentence):
        for uchar in sentence:
                if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
                        return True
        return False

最终测试完整代码如下：

#encoding=utf8

def IsChineseChar(uchar):
    if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
        return True
    return False

def IsChineseCharInside(sentence):
        for uchar in sentence:
                if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
                        return True
        return False

print IsChineseChar(u'A'), IsChineseChar(u'我')
print IsChineseCharInside(u'Aasdas fsaf vs'), IsChineseCharInside(u'dasdf 我asd das')

# python t.py 
False True
False True

阅读更多: Python

python 2.7 如何判断 Unicode 编码字符是否为汉字，如何判断unicode编码句子中是否含...

python 2.7 如何判断 Unicode 编码字符是否为汉字，如何判断unicode编码句子中是否含有汉字

Recommend

python requests库如何使用代理避免爬虫IP限制，proxy无效的解决方法，解决requests.e...

C语言const的使用，const修饰指针时，const char，char const和char* const有什么区...

linux多cpu编程，为线程指定cpu，sched_setaffinity和sched_getaffinity的详解与使用...

linux c语言编程，使用mkfifo创建FIFO特殊文件，用于进程间通信

linux c语言编程，使用setjmp和longjmp函数自制类似python的try-catch模块捕获异常，...

linux c语言多线程编程怎么传递参数？创建线程后立刻返回，出现段错误（Segmentation...

linux多线程编程中IO读写的安全函数，pread/pwrite和read/write有什么区别和联系，实...

编译器是怎样优化代码的？如何查看编译器是否优化代码？怎样避免编译器优化代码？vola...

单核电脑为什么也可以同时执行很多程序？cpu核心越多越好吗？

两分钟弄懂C语言为什么要定义不同的数据类型，有多注重细节

About Joyk