如何用正则表达式匹配汉字？

作者&投稿：镡瑾（若有异议请与网页底部的电邮联系）

如何用正则表达式匹配括号中的内容。~

“()” 等这些在正则表达式中有特殊意义的字符，要当普通字符使用时，在其前面加'\'即可。
正则表达式中的圆括号的作用：
正则表达式中的圆括号的作用是对字符进行分组，并保存匹配的文本。
圆括号用法I：对字符或元字符进行分组，这样在圆括号内就可以对字符组合使用限定符。
eg. 匹配A+一个数字+A+一个数字：(A\d){2}
圆括号用法II：表示可选择性。
3.1 从两个直接量中选择一个。
eg. gr(a|e)y匹配gray和grey，该例子还可以使用gr[ae]y，字符类效率更高。
3.2 从多个直接量中选择。
eg. (Doctor|Dr\.?)匹配Doctor,Dr,Dr.三种情况。
3.3 错误匹配的交替行为。
使用交替行为时，有时会出现意想不到的错误。
eg. 用(a|ab)匹配ab时，只能匹配a，但是如果用(ab|a),则可以匹配ab。
反向引用(backreferences)。
语法：.NET和JavaScript中，表示匹配第一组的变量被指定为”\1”。
能够体现反向引用的便利性的一种情况是找到句子中重复的单词。
eg. 查找下列句子中重复的单词：
I think that that is often overdone.
This sentence contains contains a doubled word or two two.

一般情况下可以这样匹配中文，如图：<img src="https://pic4.zhimg.com/50/edcbd2faf1a916675cec852bd886e599_hd.jpg" data-rawwidth="827" data-rawheight="600" class="origin_image zh-lightbox-thumb" width="827" data-original="https://pic4.zhimg.com/edcbd2faf1a916675cec852bd886e599_r.jpg">
先用靓汤或正则找到这个节点，再用上面的字符组匹配。假设这个节点只有一个，用法如下：
import reimport requests as reqfrom bs4 import BeautifulSoupurl = 'xxx'html = req.get(url).textbs = BeautifulSoup(html)span = bs.find_all('span', 'pro-title')'''span = re.findall('[^', html)s = span[0]m = re.findall('[一-龥]+', s)'''s = str(span)m = re.findall('[一-龥]+', s)print(m)

一般情况下可以这样匹配中文，如图：&lt;img src="https://pic4.zhimg.com/50/edcbd2faf1a916675cec852bd886e599_hd.jpg" data-rawwidth="827" data-rawheight="600" class="origin_image zh-lightbox-thumb" width="827" data-original="https://pic4.zhimg.com/edcbd2faf1a916675cec852bd886e599_r.jpg"&gt;

先用靓汤或正则找到这个节点，再用上面的字符组匹配。
假设这个节点只有一个，用法如下：

import reimport requests as reqfrom bs4 import BeautifulSoupurl = 'xxx'html = req.get(url).textbs = BeautifulSoup(html)span = bs.find_all('span', 'pro-title')'''span = re.findall('<span\sclass="pro-title">[^<]+', html)s = span[0]m = re.findall('[\u4e00-\u9fa5]+', s)'''s = str(span)m = re.findall('[\u4e00-\u9fa5]+', s)print(m)

正则表达式位置匹配攻略【转】
正则表达式是匹配模式，要么匹配字符，要么匹配位置。请记住这句话。然而大部分人学习正则时，对于匹配位置的重视程度没有那么高。本文讲讲正则匹配位置的总总。内容包括：1. 什么是位置？2. 如何匹配位置？3. 位置的特性 4. 几个应用实例分析位置是相邻字符之间的位置。比如，下图中箭头所指的地方：...

eclipse中使用正则表达式
eclipse中的正则表达式使用：1、利用快捷键Ctrl+H调出查找窗口 2、选择使用正则表达式匹配字符串查找文件。常用正则表达式正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。匹配中文字符的正则表达式： [\一-\龥]匹配双字节字符(包括汉字在内)：[^\/...

怎么利用正则表达式将字符串中的数字串匹配出来
注意空匹配也是匹配。*表示0或多匹配，一开头就有空匹配所以search马上完成，假使没找到的话search会返回None然后group()操作是会报错。你可以试试fianall()会从头找到尾，在找到666之前每个位置都是空匹配...应改用\\d+表1或多 import re temp = 'DwellTime: 666'm = re.search(r'\\d*', temp...

怎么用正则表达式匹配中括号中的内容cat: [737,794,878],跪求说的详细...
试试'[\\d{1,3},\\d{1,3},\\d{1,3}]'解释：''中为正则表达式，其中：[ #匹配一个'[’字符 \\d{1,3} #\\d匹配一个数字，后面的{1,3}是说\\d重复1至3次，也就是说\\d{1,3}配的是一个1到3位数，如果你要匹配的确定是一个三位数，那么就直接用{3}，\\d重复3次即可 , ...

PHP中如何使用正则表达式匹配和提取特定格式的字符串?
PHP开发中，正则表达式是常见的工具，本文汇总了多个正则表达式示例，帮助你处理各种字符串匹配。以下是一些关键用例：整数：<\/非负整数(^\\d+$)，正整数(^[0-9]*[1-9][0-9]*$)，非正整数(^((-\\d+)|(0+))$)，负整数(^-[0-9]*[1-9][0-9]*$)，以及整数(^-?\\d+$)。浮...

如何用正则表达式表示三个字母单词?
只是三个字母？那就用 [a-zA-Z]{3} 代表匹配三个字母，不管什么位置，都匹配 \\b[a-zA-Z]{3}\\b 代表匹配的是匹配长度为3的单词，\\b匹配一个单词边界，也就是指单词和空格间的位置。也可能是其他的，如标点符号等。\\B[a-zA-Z]{3}\\B 代表匹配\\B非单词边界，单词where中的her,\\B是...

正则提取中间的内容?
这个表达式会匹配文本中以 Dialogue: 开头，后面跟着任意字符，然后以一个逗号结尾的部分。它会提取括号中的内容，即【Default9】。例如，在使用 Python 的 re 模块时，可以这样使用这个正则表达式：运行上面的代码，会输出：请注意，这里的正则表达式并不能匹配所有情况，如果你想要更精确地匹配，可能需要...

如何使用正则表达式
本节描述某些更常用的选项，可用于创建正则表达式：• 使用反斜杠字符( \\ )• 匹配任意单个字符( . )• 匹配列表中的任意单个字符( [xy] )• 匹配不在列表中的任意单个字符( [^xy] )• 匹配某个范围内的任意单个字符( [x-y] )• ...

该正则表达式,用于过滤掉什么内容呢?:"\\\$[^()]*\\\$"; (PHP)
是指提取括号包裹的内容。以下是我搜集的正则表达式应用及方法，希望对你有用。匹配中文字符的正则表达式：[\一-\龥]匹配双字节字符(包括汉字在内)：[^\\x00-\\xff]匹配空白行的正则表达式：\\n\\s*\\r 匹配HTML标记的正则表达式：<(\\S*?)[^>]*>.*?<\/\\1>|<.*? \/> 匹配首尾空白字符的...

用正则表达式如何匹配字符串中包含@{key}@,且提取出key这个字符?_百度...
正则如下：let str = '@{key}@'\/@{(\\w*?)}@\/.exec(str)[1]

仪陇县18768626925： 如何用正则表达式匹配特定中文 - ？
敖林香连： preg_match('/(.*?)/',$str,$matches); echo $matches[1];

仪陇县18768626925： c++正则表达式如何匹配汉字 - ？
敖林香连： 按.NET的标准,\w本来就是可以匹配:汉字,字母,数字,下划线.的所以一般\w可以满足需求了.如果需要排除字母数字的话,可以这样: (?![a-zA-Z0-9_])\w >_>这样写估计效率不高所以一般来说还是直接匹配指定的unicode码 \unnnn Unicode代码中十六进制代码为nnnn的字符汉字(字符) [\u4e00-\u9fa5] 中文及全角标点符号(字符) [\u3000-\u301e\ufe10-\ufe19\ufe30-\ufe44\ufe50-\ufe6b\uff01-\uffee]

仪陇县18768626925： 怎么用正则表达式匹配下面的一行汉字 - ？
敖林香连： 正则表达式 (.+?)<\/span> 取第一捕获组的数据 我给你一个Javascript语言的例子你看看吧 <script type=text/javascript> var str='上隐水产海鲜自助餐厅</span...

仪陇县18768626925： 如何用正则表达式匹配一段文字中的字符 - ？
敖林香连： 要看你内容里是否有中括号的,如果没有,那就简单,用正则\[([^\[\]]*)\]这样就可以把括号内的内容匹配到$1分组里了,怎么取$1要看你用的是什么编程语言了

仪陇县18768626925： 用JAVA语言编写正则表达式匹配指定的汉字的方法 - ？
敖林香连： 直接这样写:\b正则表达式\b

仪陇县18768626925： 我想构建一个只匹配汉字的正则表达式可否给一下 - ？
敖林香连： 正则匹配中文汉字根据页面编码不同而略有区别: GBK/GB2312编码:[x80-xff>]+ 或 [xa1-xff]+ UTF-8编码:[x{4e00}-x{9fa5}]+/u

仪陇县18768626925： C#正则表达式匹配字符 - ？
敖林香连： 以我的理解,正则表达式:＂^[\u4e00-\u9fa5]$ ＂是无法匹配到任何字符串的.因为:^[\u4e00-\u9fa5]$ 中你的$,已经匹配到字符串的结束位置结果你后面再添加一个空格,去匹配:字符串末尾后面跟着一个空格本身就是不存在的.因为即使一个字符串是汉字加上一个空格结尾,那么结尾处的那个位置,也就对应着$了,而无法再匹配到空格.所以,这样的正则,逻辑上就是行不通的.感兴趣的话,可以去看看我总结的:crifan 正则表达式学习心得 (此处不能贴地址,请用google搜标题,即可找到帖子地址)

仪陇县18768626925： 怎样对中文字符使用正则表达式 - ？
敖林香连： [\u4ea0-\u9fa5]就能匹配所有中文特定的字符的话直接在中括号里填上就可以..有几个写几个 [,.;':“《》?!@#￥%…&*()【】] 按F12然后进入Console输入下面的内容回车,就会发现文本里的标点都去掉了1＂文本:aa阿斯,【顿wor.,dぁ＂.replace(/[,.;':“《》?!@#￥%…&*()【】]/gm,＂＂)

仪陇县18768626925： 怎样用正则表达式匹配汉字 (perl) - Perl - ？
敖林香连： use Encode;$_=\＂abc你好wert\＂;$a=decode(\'cp936\',$_);($x)=($a=~m/(\\p{Han}+)/);print encode(\'cp936\',$x),\＂\\n\＂; 先谢谢分享,但似乎有个问题.如何匹配多段汉字呢.比如:$_=\＂abc你好,汤姆qwer\＂;怎么匹配?我试过use ...

仪陇县18768626925： 正则表达式怎么识别特定的中文字符 - ？
敖林香连： 查到该中文字符的unicode码即可.*\u4e00.*:就是匹配汉字一,其它的可以在线转换unicode工具看看

你可能想看的相关专题

星空见康网

如何用正则表达式匹配汉字？

你可能想看的相关专题