7赞

C# 爬虫简单教程

作者：臭小子 | 2021-10-27 17:55

这篇文章主要介绍了C#爬虫的简单教程，帮助大家更好的理解和使用c#，感兴趣的朋友可以了解下

1、使用第三方类库 HtmlAgilityPack

官方网址：https://html-agility-pack.net/?z=codeplex、

// From File 从文件获取html信息
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 从字符串获取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web  从网址获取html信息
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、这里介绍一下最后一种用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我们还可以设置cookie、headers等信息，来处理一些特定的网站需求，比如需要登陆等。

1.2 用法解释

网页在你查看网页源代码之后只是一段字符串，而爬虫所做的就是在这堆字符串中，查询到我们想要的信息，挑选出来。
以往的筛选方法：正则（太麻烦了，写起来有些头疼）
HtmlAgilityPack 支持通过XPath来解析我们需要的信息。

1.2.1 在哪里找XPath？

网页右键检查

通过XPath就可以准确获取你想要元素的全部信息。

1.2.2 获取选中Html元素的信息？

获取选中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

获取元素信息

htmlnode.InnerText;
htmlnode.InnerHtml;
//根据属性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封装的类库

 /// 
  /// 下载HTML帮助类
  /// 
  public static class LoadHtmlHelper
  {
    /// 
    /// 从Url地址下载页面
    /// 
    /// 
    /// 
    public async static ValueTask LoadHtmlFromUrlAsync(string url)
    {
      HtmlWeb web = new HtmlWeb();
       return await
         web?.LoadFromWebAsync(url);
    }

    /// 
    /// 获取单个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
    {
     return htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
    }

    /// 
    /// 获取多个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
    {
      return htmlDocument?.DocumentNode?.SelectNodes(xPath);
    }

   

    /// 
    /// 获取多个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectNodes(xPath);
    }


    /// 
    /// 获取单个节点扩展方法
    /// 
    /// 文档对象
    /// xPath路径
    /// 
    public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
    {
      return htmlNode?.SelectSingleNode(xPath);
    }

    /// 
    /// 下载图片
    /// 
    /// 地址
    /// 文件路径
    /// 
    public async static ValueTask DownloadImg(string url ,string filpath)
    {
      HttpClient httpClient = new HttpClient();
      try
      {
        var bytes = await httpClient.GetByteArrayAsync(url);
        using (FileStream fs = File.Create(filpath))
        {
          fs.Write(bytes, 0, bytes.Length);
        }
        return File.Exists(filpath);
      }
      catch (Exception ex)
      {
       
        throw new Exception("下载图片异常", ex);
      }
      
    }
  }

3、自己写的爬虫案例，爬取的网站https://www.meitu131.com/

数据存储层没有实现，懒得写了，靠你们喽，我是数据暂时存在了文件中
GitHub地址：https://github.com/ZhangQueque/quewaner.Crawler.git

以上就是C# 爬虫简单教程的详细内容，更多关于c# 爬虫的资料请关注其它相关文章！

推荐阅读

程序员
RecyclerView滚动到smoothScrollToPosition(0)后结束

如何解决《RecyclerView滚动到smoothScrollToPosition(0)后结束》经验，为你挑选了0个好方法。 ... [详细]
程序员
父控制器上的调用方法？

如何解决《父控制器上的调用方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从锚链接中删除click事件？

如何解决《如何从锚链接中删除click事件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#等效的PHP http_build_query

如何解决《C#等效的PHPhttp_build_query》经验，为你挑选了1个好方法。 ... [详细]
程序员
MVC DropDownList OnChange更新其他表单字段

如何解决《MVCDropDownListOnChange更新其他表单字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
将背景过滤器应用于svg path元素

如何解决《将背景过滤器应用于svgpath元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
ggplot2:更改条形图中每个构面的颜色

如何解决《ggplot2:更改条形图中每个构面的颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Golang:如何在Linux上使用syscall.Syscall？

如何解决《Golang:如何在Linux上使用syscall.Syscall？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从django rest框架的基于函数的视图中分页响应？

如何解决《如何从djangorest框架的基于函数的视图中分页响应？》经验，为你挑选了1个好方法。 ... [详细]
程序员
解析JSON响应的最简单方法

如何解决《解析JSON响应的最简单方法》经验，为你挑选了3个好方法。 ... [详细]
程序员
Google Feeds API无法正常工作-是否已关闭？

如何解决《GoogleFeedsAPI无法正常工作-是否已关闭？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MATLAB - 获取当前工作空间

如何解决《MATLAB-获取当前工作空间》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么减法超过30天导致错误答案

如何解决《为什么减法超过30天导致错误答案》经验，为你挑选了1个好方法。 ... [详细]
程序员
Chrome DevTools - "排队"在"计时"选项卡中的含义是什么？

如何解决《ChromeDevTools-"排队"在"计时"选项卡中的含义是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用角度2添加firebase的单元测试

如何解决《使用角度2添加firebase的单元测试》经验，为你挑选了0个好方法。 ... [详细]
程序员
从数组中获取最"流行"的数字

如何解决《从数组中获取最"流行"的数字》经验，为你挑选了1个好方法。 ... [详细]
程序员
在UICollectionViewCell中处理滚动视图大小

如何解决《在UICollectionViewCell中处理滚动视图大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
术语弹性搜索中嵌套字段的聚合

如何解决《术语弹性搜索中嵌套字段的聚合》经验，为你挑选了1个好方法。 ... [详细]
程序员
Linux IRQ处理程序中的固有竞争条件

如何解决《LinuxIRQ处理程序中的固有竞争条件》经验，为你挑选了1个好方法。 ... [详细]
程序员
BlueZ D-Bus C或C++示例

如何解决《BlueZD-BusC或C++示例》经验，为你挑选了1个好方法。 ... [详细]

臭小子

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章