海南省BIM中心

 找回密码
 注册请加微信xycost

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 508|回复: 0

利用正则表达式去除网页采集时的干扰码

[复制链接]

0

主题

2830

帖子

2657

积分

论坛游侠

Rank: 1

积分
2657
发表于 2014-6-15 16:36:11 | 显示全部楼层 |阅读模式

利用正则表达式去除网页采集时的干扰码

public string Cleardistrub(string html)

        {


            string p = @"<span style=""display:none"">(?<posttitle>.*?)</span>";


         return Regex.Replace(html , p, "", RegexOptions.IgnoreCase);


        }

只取得中间字符串


输入:public <%=classname%>Extension : IExt

目的:匹配 <%= %>中间的classname并替换

表达式:<%=.*%>

代码

private string Replace(string input){ return Regex.Replace(input, @"<%=.*%>", new MatchEvaluator(RefineCodeTag), RegexOptions.Singleline);}
string RefineCodeTag(Match m){ string x = m.ToString();
x = Regex.Replace(x, "<%=", ""); x = Regex.Replace(x, "%>", "");
return x.Trim() + ",";}


回复

使用道具 举报

本版积分规则

关闭

站长推荐上一条 /2 下一条


QQ|小黑屋|手机版|Archiver|ChinaBIM ( 琼ICP备14001050号-1 )

GMT+8, 2024-12-24 01:11 , Processed in 0.020412 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表