问一个正则表达式获取域名

作者&投稿:鲍肿 (若有异议请与网页底部的电邮联系)
求一个匹配域名采集的正则表达式,比如 www.yuming.com 我要匹配页面中所有包含域名 :yuming 的链接~

string pattern="(http://){0,1}(/w/d)*.yuming.(com|cn|net)";
解析:(http://){0,1}指示无论域名出现时是否带有http://字样都要进行匹配。
(/w/d)*:指示无论出现二级域名与否,只要带有yuming字样都要进行匹配
yuming指你要采集的域名,你自行替换吧。
(com|net|cn):要取域名的后缀,根据需要,你可以自行添加或删减。
这个表达式相比较来说比做蜘蛛程序的表达式容易写,你应当研究一下。做.net采集,不会正则无疑是瘸了条腿。

var reg = /^.*abc\.com.*$/;

正则表达式只能获取域名,没法去掉重复的域名,各个语言去除重复域名的方法各不相同,我不知道你用的是什么语言,这里给你个Javascript语言的例子,匹配域名然后去除重复域名.

正则表达式:([A-Za-z0-9]+(-[A-Za-z0-9]+)*\.)+[A-Za-z]{2,}

完整的Javascript语言例子:

<script type="text/javascript">
 var str = "<site>http://www.abc.com/idc/<site>
<site>http://www.abc.com<site>
<site>www.abc.com/idc/</site>
<site>abc.com/idc/</site>";
var regex=/([A-Za-z0-9]+(-[A-Za-z0-9]+)*\.)+[A-Za-z]{2,}/g;
var arr=str.match(regex);
Array.prototype.unique = function (isStrict) {
    if (this.length < 2)
        return [this[0]] || [];
    var tempObj = {}, newArr = [];
    for (var i = 0; i < this.length; i++) {
        var v = this[i];
        var condition = isStrict ? (typeof tempObj[v] != typeof v) : false;
        if ((typeof tempObj[v] == "undefined") || condition) {
            tempObj[v] = v;
            newArr.push(v);
        }
    }
    return newArr;
}
var r=arr.unique(true);//去掉重复域名
for(var i=0;i<r.length;i++)
alert(r[i]);
</script>


<site>(?:http://)?((?:www.)?[^/<]+)


求一个正则表达式
例如,使用这个正则表达式匹配字符串key1 = 'value1' AND key2 = 'value2'可以得到如下结果:key1分组匹配到key1 value1分组匹配到value1 key2分组匹配到key2 value2分组匹配到value2 此外,你还可以使用该正则表达式匹配空字符串,例如:匹配字符串'',所有命名分组均不匹配 匹配字符串key1 = 'v...

python如何一个正则表达式获取html中表格内容
var reg = \/(?:(?!<\\\/table>)[\\s\\S])*<\\\/table>\/gi;

正则表达式,想要获取多个子匹配,该如何写?
1. 提取多个匹配文本: (?<=span>)\\d+?(?=<\\\/)2. 提取一个匹配文本: [^\\d]+

C# 正则表达式获取字符串?
subexpression)\\x0d\\x0a\\x0d\\x0a其中name是有效的组名称,而subexpression是任何有效的正则表达式模式。name不得包含任何标点符号字符,并且不能以数字开头。\\x0d\\x0a这个方式相当于下面这个表达式\\x0d\\x0a\\x0d\\x0a"(?<!0-9a-zA-Z)([0-9]|[a-z]|[A-Z]){1,}"

c#中,如何通过正则表达式(或其他方法)获取字符串中数字?例如:北京天安...
\/\/\/ \/\/\/ 获取字符串中的数字 \/\/\/ \/\/\/ 字符串 \/\/\/ 数字 例子1:public static decimal GetNumber(string str){ decimal result = 0;if (str != null && str != string.Empty){ \/\/ 正则表达式剔除非数字字符(不包含小数点.)str = Regex.Replace(str, @"[^\\d.\\d]", "");\/\/ ...

问一个正则表达式获取域名
正则表达式只能获取域名,没法去掉重复的域名,各个语言去除重复域名的方法各不相同,我不知道你用的是什么语言,这里给你个Javascript语言的例子,匹配域名然后去除重复域名.正则表达式:([A-Za-z0-9]+(-[A-Za-z0-9]+)*\\.)+[A-Za-z]{2,} 完整的Javascript语言例子: var str = "<site>http:\/\/w...

正则表达式如何获取匹配的部分
首先你要matcher.find(); 因为pattern.matcher(str);只是配置了matcher,必须调用find函数才会开始匹配。而且你matcher.group(1)是获取第一个分组,但是你没有使用分组,所以得不到内容。如果正则改成"(\\\\d{8})",那你就可以获得内容了。或者String tempStr = matcher.group();或者String tempStr =...

JS求一个正则表达式获取所有的href
var reg=\/"href":"(.*?)"\/g, arr=[], match;while(match=reg.exec(str))arr.push(match[1]);console.log(arr); \/\/ ["userManager\/upPasswordBefore.do", "#", "auditController\/getUserAudit.do"]

正则表达式如何获取被匹配字符串的匹配组名
public static void main(String[] args) { String s = "A876X";\/\/ 把要匹配的字符串写成正则表达式,然后要提取的字符使用括号括起来 \/\/ 在这里,我们要提取最后一个数字,正则规则就是“一个数字加上大于等于0个非数字再加上结束符”Pattern pattern = Pattern.compile("(\\\\d)[^\\\\d]*$"...

正则表达式获取字符串里面有几个字符
var str = "正则表达式获取字符串里面有几个字符";var reg = \/.\/g;str.match(reg).length;

定西市13588289640: 问一个正则表达式获取域名 -
箕英盖曲: 正则表达式只能获取域名,没法去掉重复的域名,各个语言去除重复域名的方法各不相同,我不知道你用的是什么语言,这里给你个Javascript语言的例子,匹配域名然后去除重复域名.<br>正则表达式:([A-Za-z0-9]+(-[A-Za-z0-9]+)*\.)+[A-...

定西市13588289640: 求助一个正则表达式筛选域名 -
箕英盖曲: 很高兴能回答你的问题:(?<=<site>)[^/<]*(?=</|/)如上使用零宽断言:匹配<site>后面包含除了【/】和【<】以外的任意字符(不匹配<site>).匹配【</】或者【/】的结束位置(不匹配【</】和【/】) 这样,能处理:<site>www.abc.com</site> 使用grep测试结果:[^/<]# 你可以在【^】后面增加任何字符,以保证排除在外,包括空格

定西市13588289640: 如何用正则表达式提取网址? -
箕英盖曲: HTML网页是一个文本文档,正则表达式的主要作用是匹配文本文档中的特定字符串,当然,它不仅仅是从文档中找出一个确定的字符串,例如“text”这么简单,而是使用一种很灵活的词法表达一个字符串模式,按照这个模式匹配. ...

定西市13588289640: 求个正则表达式提取网页IP地址 -
箕英盖曲: var reg = /((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)\s+\d+/g; var html = document.body.innerText; html.match(reg)

定西市13588289640: 求一个匹配域名采集的正则表达式,比如 www.yuming.com 我要匹配页面中所有包含域名 :yuming 的链接 -
箕英盖曲: string pattern="(http://){0,1}(/w/d)*.yuming.(com|cn|net)"; 解析:(http://){0,1}指示无论域名出现时是否带有http://字样都要进行匹配.(/w/d)*:指示无论出现二级域名与否,只要带有yuming字样都要进行匹配 yuming指你要采集的域名,你自行替换吧.(com|net|cn):要取域名的后缀,根据需要,你可以自行添加或删减.这个表达式相比较来说比做蜘蛛程序的表达式容易写,你应当研究一下.做.net采集,不会正则无疑是瘸了条腿.

定西市13588289640: 谁能帮我写一个只匹配顶级域名的正则表达式 -
箕英盖曲: 以下我给出的代码.不完善之处,多多交流.把以下代码放到一个后缀名为html文件中,运行即可.用正则表达式对顶级域名进行验证:

定西市13588289640: 中文域名的验证正则表达式 -
箕英盖曲: /^[A-Za-z0-9_\u4E00-\u9FA5]{1,20}([\.\-][A-Za-z0-9_\u4E00-\u9FA5]{1,20})*$/ 试试这样吧,你用的php程序哟?自己写几个超出的和符合的验证一下就知道了.+表示“1个或者多个”,改成{1,20}就可以了 补充:=========================...

定西市13588289640: java正则表达式提取网址 -
箕英盖曲: 1. 用字符串的split方法 var ip = '127.111.1.112:8080'; var addr = ip.split(':')[0]; var port = ip.split(':')[1];2. 用正则 var reg=/(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\:(\d{1,4})/; var ip = '127.111.1.112:8080'; var addr = ip.replace(reg,'$1'); var port = ip.replace(reg,'$2');3. 还可以间接使用字符串其他的方法,或者是数组的

定西市13588289640: PHP正则表达式如何匹配出域名? -
箕英盖曲: 看看我下面的例子代码:$s='http://www.abc.com http://www.def.com/ https://www.ghl.com/'; if (preg_match_all('#https?://(.*?)($|/)#m', $s, $r)) print_r($r[1]);?> 执行的结果是:E:\ygb>php a.php Array( [0] => www.abc.com [1] => www.def.com [2] => www.ghl.com)

定西市13588289640: 求验证域名正则表达式一个.在线等.谢谢. -
箕英盖曲: 顺便回答一下 ^http://([a-zA-Z\d][a-zA-Z\d-_]+\.)+[a-zA-Z\d-_][^ ]*$

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网