C#制作多线程处理强化版网络爬虫

作者：mobiledu2402851323 | 2023-01-13 09:43

这篇文章主要介绍了C#制作多线程处理强化版网络爬虫的相关代码，有想学习C#多线程编程的小伙伴可以参考下

上次做了一个帮公司妹子做了爬虫，不是很精致，这次公司项目里要用到，于是有做了一番修改，功能添加了网址图片采集，下载，线程处理界面网址图片下载等。

说说思路：首相获取初始网址的所有内容在初始网址采集图片去初始网址采集链接把采集到的链接放入队列继续采集图片，然后继续采集链接，无限循环

还是上图片大家看一下，

处理网页内容抓取跟网页网址爬取都做了改进，下面还是大家来看看代码，有不足之处，还请之处!

网页内容抓取HtmlCodeRequest,

网页网址爬取GetHttpLinks，用正则去筛选html中的Links

图片抓取GetHtmlImageUrlList，用正则去筛选html中的Img

都写进了一个封装类里面 HttpHelper

  ///   
    /// 取得HTML中所有图片的 URL。  
    ///   
    /// HTML代码  
    /// 图片的URL列表 
public static string HtmlCodeRequest(string Url)
    {
      if (string.IsNullOrEmpty(Url))
      {
        return "";
      }
      try
      {
        //创建一个请求
        HttpWebRequest httprequst = (HttpWebRequest)WebRequest.Create(Url);
        //不建立持久性链接
        httprequst.KeepAlive = true;
        //设置请求的方法
        httprequst.Method = "GET";
        //设置标头值
        httprequst.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";
        httprequst.Accept = "*/*";
        httprequst.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5");
        httprequst.ServicePoint.Expect100Continue = false;
        httprequst.Timeout = 5000;
        httprequst.AllowAutoRedirect = true;//是否允许302
        ServicePointManager.DefaultConnectionLimit = 30;
        //获取响应
        HttpWebResponse webRes = (HttpWebResponse)httprequst.GetResponse();
        //获取响应的文本流
        string content = string.Empty;
        using (System.IO.Stream stream = webRes.GetResponseStream())
        {
          using (System.IO.StreamReader reader = new StreamReader(stream, System.Text.Encoding.GetEncoding("utf-8")))
          {
            content = reader.ReadToEnd();
          }
        }
        //取消请求
        httprequst.Abort();
        //返回数据内容
        return content;
      }
      catch (Exception)
      {

        return "";
      }
    }
/// 
    /// 提取页面链接
    /// 
    /// 
    /// 
public static List GetHtmlImageUrlList(string url)
    {
      string html = HttpHelper.HtmlCodeRequest(url);
      if (string.IsNullOrEmpty(html))
      {
        return new List();
      }
      // 定义正则表达式用来匹配 img 标签  
      Regex regImg = new Regex(@"]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);

      // 搜索匹配的字符串  
      MatchCollection matches = regImg.Matches(html);
      List sUrlList = new List();

      // 取得匹配项列表  
      foreach (Match match in matches)
        sUrlList.Add(match.Groups["imgUrl"].Value);
      return sUrlList;
    }


    /// 
    /// 提取页面链接
    /// 
    /// 
    /// 
    public static List GetHttpLinks(string url)
    {
      //获取网址内容
      string html = HttpHelper.HtmlCodeRequest(url);
      if (string.IsNullOrEmpty(html))
      {
        return new List();
      }
      //匹配http链接
      const string pattern2 = @"http(s)?://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
      Regex r2 = new Regex(pattern2, RegexOptions.IgnoreCase);
      //获得匹配结果
      MatchCollection m2 = r2.Matches(html);
      List links = new List();
      foreach (Match url2 in m2)
      {
        if (StringHelper.CheckUrlIsLegal(url2.ToString()) || !StringHelper.IsPureUrl(url2.ToString()) || links.Contains(url2.ToString()))
          continue;
        links.Add(url2.ToString());
      }
      //匹配href里面的链接
      const string pattern = @"(?i)]*?href=(['""]?)(?!javascript|__doPostBack)(?[^'""\s*#<>]+)[^>]*>"; ;
      Regex r = new Regex(pattern, RegexOptions.IgnoreCase);
      //获得匹配结果
      MatchCollection m = r.Matches(html);
      foreach (Match url1 in m)
      {
        string href1 = url1.Groups["url"].Value;
        if (!href1.Contains("http"))
        {
          href1 = Global.WebUrl + href1;
        }
        if (!StringHelper.IsPureUrl(href1) || links.Contains(href1)) continue;
        links.Add(href1);
      }
      return links;
    }

这边下载图片有个任务条数限制，限制是200条。如果超过的话线程等待5秒，这里下载图片是异步调用的委托

public string DownLoadimg(string url)
    {
      if (!string.IsNullOrEmpty(url))
      {
        try
        {
          if (!url.Contains("http"))
          {
            url = Global.WebUrl + url;
          }
          HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
          request.Timeout = 2000;
          request.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";
          //是否允许302
          request.AllowAutoRedirect = true;
          WebResponse response = request.GetResponse();
          Stream reader = response.GetResponseStream();
          //文件名
          string aFirstName = Guid.NewGuid().ToString();
          //扩展名
          string aLastName = url.Substring(url.LastIndexOf(".") + 1, (url.Length - url.LastIndexOf(".") - 1));
          FileStream writer = new FileStream(Global.FloderUrl + aFirstName + "." + aLastName, FileMode.OpenOrCreate, FileAccess.Write);
          byte[] buff = new byte[512];
          //实际读取的字节数
          int c = 0;
          while ((c = reader.Read(buff, 0, buff.Length)) > 0)
          {
            writer.Write(buff, 0, c);
          }
          writer.Close();
          writer.Dispose();
          reader.Close();
          reader.Dispose();
          response.Close();
          return (aFirstName + "." + aLastName);
        }
        catch (Exception)
        {
          return "错误：地址" + url;
        }
      }
      return "错误：地址为空";
    }

话不多说，更多的需要大家自己去改进咯！欢迎读者来与楼主进行交流。

推荐阅读

程序员
内部曲线的框

如何解决《内部曲线的框》经验，为你挑选了1个好方法。 ... [详细]
程序员
调用类方法.模棱两可的类型

如何解决《调用类方法.模棱两可的类型》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在熊猫中制作非数值数据的条形图

如何解决《如何在熊猫中制作非数值数据的条形图》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何从JavaScript对象中提取数据

如何解决《如何从JavaScript对象中提取数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
访问私有嵌套类

如何解决《访问私有嵌套类》经验，为你挑选了1个好方法。 ... [详细]
程序员
快速找到两组数字中的普通素数除数

如何解决《快速找到两组数字中的普通素数除数》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask-Admin/Flask-SQLAlchemy:为INSERT设置user_id = current_user

如何解决《Flask-Admin/Flask-SQLAlchemy:为INSERT设置user_id=current_user》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Angular的请求压缩到Web API

如何解决《将Angular的请求压缩到WebAPI》经验，为你挑选了1个好方法。 ... [详细]
程序员
JPA条件API查询子类属性

如何解决《JPA条件API查询子类属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
在整个Project中重命名RStudio上下文对象敏感

如何解决《在整个Project中重命名RStudio上下文对象敏感》经验，为你挑选了1个好方法。 ... [详细]
程序员
scikit-learn的进度条？

如何解决《scikit-learn的进度条？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Sublime text - (补充工具栏/标签/转到任何东西)韩文/中文/日文破碎

如何解决《Sublimetext-(补充工具栏/标签/转到任何东西)韩文/中文/日文破碎》经验，为你挑选了1个好方法。 ... [详细]
程序员
了解离子

如何解决《了解离子》经验，为你挑选了1个好方法。 ... [详细]
程序员
Drupal 8以编程方式创建字段

如何解决《Drupal8以编程方式创建字段》经验，为你挑选了0个好方法。 ... [详细]
程序员
Stanford CoreNLP命名实体识别如何捕获5英寸,5英寸,5英寸,5英寸等测量值

如何解决《StanfordCoreNLP命名实体识别如何捕获5英寸,5英寸,5英寸,5英寸等测量值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Logcat错误消息 - 尝试以非零计数销毁屏障

如何解决《Logcat错误消息-尝试以非零计数销毁屏障》经验，为你挑选了0个好方法。 ... [详细]
程序员
getDrawable()在尝试从imageview获取位图时给出null对象

如何解决《getDrawable()在尝试从imageview获取位图时给出null对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Windows上从命令行启动MingW控制台(GitBash)？

如何解决《如何在Windows上从命令行启动MingW控制台(GitBash)？》经验，为你挑选了1个好方法。 ... [详细]
程序员
socket.send()和socket.sendall()有什么区别？

如何解决《socket.send()和socket.sendall()有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将TypeScript WebPack ts-loader与Angular2 @View样式集成？

如何解决《如何将TypeScriptWebPackts-loader与Angular2@View样式集成？》经验，为你挑选了0个好方法。 ... [详细]

mobiledu2402851323

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章