如何解析图像标记的HTML字符串以获取SRC信息？

作者：小白也坚强_177 | 2023-09-04 19:15

如何解决《如何解析图像标记的HTML字符串以获取SRC信息？》经验，为你挑选了2个好方法。

目前我使用.Net WebBrowser.Document.Images()来做到这一点.它需要Webrowser加载文档.它很乱,占用资源.

根据这个问题, XPath优于正则表达式.

任何人都知道如何在C#中做到这一点？

1> mathieu..：

如果您的输入字符串是有效的XHTML,您可以将其视为xml,将其加载到xmldocument中,并执行XPath魔法:)但情况并非总是如此.

否则你可以尝试这个函数,它将返回来自HtmlSource的所有图像链接:

public List FetchLinksFromSource(string htmlSource)
{
    List links = new List();
    string regexImgSrc = @"]*?src\s*=\s*[""']?([^'"" >]+?)[ '""][^>]*?>";
    MatchCollection matchesImgSrc = Regex.Matches(htmlSource, regexImgSrc, RegexOptions.IgnoreCase | RegexOptions.Singleline);
    foreach (Match m in matchesImgSrc)
    {
        string href = m.Groups[1].Value;
        links.Add(new Uri(href));
    }
    return links;
}

你可以像这样使用它:

HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.example.com");
request.Credentials = System.Net.CredentialCache.DefaultCredentials;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
if (response.StatusCode == HttpStatusCode.OK)
{
    using(StreamReader sr = new StreamReader(response.GetResponseStream()))
    {
        List links = FetchLinksFromSource(sr.ReadToEnd());
    }
}

2> Paul Mrozows..：

任何HTML解析的最大问题是"格式良好"的部分.你已经在那里看到了垃圾HTML - 它有多少真的很好？我需要做类似的事情 - 解析文档中的所有链接(在我的情况下)用重写的链接更新它们.我在CodePlex上找到了Html Agility Pack.它摇滚(并处理格式错误的HTML).

这是一个迭代文档中链接的片段:

HtmlDocument doc = new HtmlDocument();
doc.Load(@"C:\Sample.HTM");
HtmlNodeCollection linkNodes = doc.DocumentNode.SelectNodes("//a/@href");

Content match = null;

// Run only if there are links in the document.
if (linkNodes != null)
{
    foreach (HtmlNode linkNode in linkNodes)
    {
        HtmlAttribute attrib = linkNode.Attributes["href"];
        // Do whatever else you need here
    }
}

原博客文章

什么是"内容"？

推荐阅读

程序员
MVP Android - 有多少主持人？

如何解决《MVPAndroid-有多少主持人？》经验，为你挑选了2个好方法。 ... [详细]
程序员
JavaScript:如何删除外部数组中的所有方括号？

如何解决《JavaScript:如何删除外部数组中的所有方括号？》经验，为你挑选了1个好方法。 ... [详细]
程序员
rake db:create的问题

如何解决《rakedb:create的问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在CSS中包含.otf？

如何解决《如何在CSS中包含.otf？》经验，为你挑选了1个好方法。 ... [详细]
程序员
NoSuchElement例外

如何解决《NoSuchElement例外》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何等待Func <Task <string >>？

如何解决《如何等待Func<Task<string>>？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel是否支持队列工作者的超时选项？

如何解决《Laravel是否支持队列工作者的超时选项？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用其他命令在块内部时,exit/b无法正常工作

如何解决《使用其他命令在块内部时,exit/b无法正常工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
Robolectric 3.0无法测试启动HandlerThread的函数

如何解决《Robolectric3.0无法测试启动HandlerThread的函数》经验，为你挑选了0个好方法。 ... [详细]
程序员
了解mesos上的spark作业的资源分配

如何解决《了解mesos上的spark作业的资源分配》经验，为你挑选了0个好方法。 ... [详细]
程序员
我可以在vuejs循环中使用插槽吗？

如何解决《我可以在vuejs循环中使用插槽吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
独特的键值对集合

如何解决《独特的键值对集合》经验，为你挑选了0个好方法。 ... [详细]
程序员
操纵ActiveRecord对象以构建JSON

如何解决《操纵ActiveRecord对象以构建JSON》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python pandas合并了keyerror

如何解决《Pythonpandas合并了keyerror》经验，为你挑选了1个好方法。 ... [详细]
程序员
x86_64:强制gcc在堆栈上传递参数

如何解决《x86_64:强制gcc在堆栈上传递参数》经验，为你挑选了0个好方法。 ... [详细]
程序员
Python - 降低niceness值

如何解决《Python-降低niceness值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Internet Explorer中带有阴影的SVG文本

如何解决《InternetExplorer中带有阴影的SVG文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法在js生成的excel文件上设置安全内容？

如何解决《有没有办法在js生成的excel文件上设置安全内容？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在级联持续父级之后,子级ID不存在

如何解决《在级联持续父级之后,子级ID不存在》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何选择AWT-EventQueue线程,当有多个线程时

如何解决《如何选择AWT-EventQueue线程,当有多个线程时》经验，为你挑选了0个好方法。 ... [详细]

小白也坚强_177

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章