10赞

如何使用PHP从html中提取img src,title和alt？

作者：农大军乐团_697 | 2023-09-04 19:20

如何解决《如何使用PHP从html中提取imgsrc,title和alt？》经验，为你挑选了6个好方法。

我想创建一个页面,其中所有驻留在我网站上的图像都列有标题和替代表示.

我已经给我写了一个程序来查找和加载所有HTML文件,但现在我被困在如何提取src,title并alt从这个HTML:

src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny" />

我想这应该用一些正则表达式完成,但由于标签的顺序可能会有所不同,而且我需要所有这些,我真的不知道如何以优雅的方式解析它(我可以通过char方式,但这很痛苦).

1> 小智..：

$url="http://example.com";

$html = file_get_contents($url);

$doc = new DOMDocument();
@$doc->loadHTML($html);

$tags = $doc->getElementsByTagName('img');

foreach ($tags as $tag) {
       echo $tag->getAttribute('src');
}

我喜欢这是多么容易阅读!xpath和regex也有效,但18个月之后再也不容易阅读了.

2> e-satis..：

编辑:现在我知道的更好

使用regexp来解决这类问题是一个坏主意,可能导致代码难以维护和不可靠.更好地使用HTML解析器.

使用正则表达式解决方案

在这种情况下,最好将流程分为两部分:

得到所有的img标签

提取元数据

我将假设您的doc不是xHTML严格的,因此您不能使用XML解析器.EG与此网页源代码:

/* preg_match_all match the regexp in all the $html string and output everything as 
an array in $result. "i" option is used to make it case insensitive */

preg_match_all('/]+>/i',$html, $result); 

print_r($result);
Array
(
    [0] => Array
        (
            [0] => 
            [1] => 
            [2] => 
            [3] => 

[...]
        )

)

然后我们用循环获取所有img标记属性:

我确实使用了该DOMDocument::loadHTML()方法,因为此方法可以处理HTML语法,并且不会强制输入文档为XHTML.严格地说,转换为a SimpleXMLElement是不必要的 - 它只是使用xpath并且xpath结果更简单.

4> DreamWerx..：

如果它是XHTML,那么你的例子是,你只需要simpleXML.

';
$sx = simplexml_load_string($input);
var_dump($sx);
?>

输出:

object(SimpleXMLElement)#1 (1) {
  ["@attributes"]=>
  array(3) {
    ["src"]=>
    string(22) "/image/fluffybunny.jpg"
    ["title"]=>
    string(16) "Harvey the bunny"
    ["alt"]=>
    string(26) "a cute little fluffy bunny"
  }
}

5> Bakudan..：

必须像这样编辑脚本

foreach( $result[0] as $img_tag)

因为preg_match_all返回数组数组

6> Nauphal..：

你可以使用simplehtmldom.simplehtmldom支持大多数jQuery选择器.下面给出一个例子

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '
';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '
';

推荐阅读

程序员
dbo和[dbo]之间的区别

如何解决《dbo和[dbo]之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何更新UITableViewCell高度,因为输入到UITextView中的文本

如何解决《如何更新UITableViewCell高度,因为输入到UITextView中的文本》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何禁止转让

如何解决《如何禁止转让》经验，为你挑选了1个好方法。 ... [详细]
程序员
根据作为模板参数的函数的返回值避免分支

如何解决《根据作为模板参数的函数的返回值避免分支》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法打开作为链接添加的configSource文件

如何解决《无法打开作为链接添加的configSource文件》经验，为你挑选了3个好方法。 ... [详细]
程序员
Google Cloud Logging中的Dataproc Spark作业输出

如何解决《GoogleCloudLogging中的DataprocSpark作业输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
我怎样才能限制角度$ q承诺并发？

如何解决《我怎样才能限制角度$q承诺并发？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Plotly:循环中的add_trace

如何解决《Plotly:循环中的add_trace》经验，为你挑选了2个好方法。 ... [详细]
程序员
卸载组件时取消图像加载

如何解决《卸载组件时取消图像加载》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在hadoop工作中优化改组/排序阶段

如何解决《如何在hadoop工作中优化改组/排序阶段》经验，为你挑选了1个好方法。 ... [详细]
程序员
按钮:使用JavaScript和CSS激活

如何解决《按钮:使用JavaScript和CSS激活》经验，为你挑选了1个好方法。 ... [详细]
程序员
包裹在pango的词用混杂的脚本

如何解决《包裹在pango的词用混杂的脚本》经验，为你挑选了1个好方法。 ... [详细]
程序员
rgl矢量图:显示正交矢量的直角

如何解决《rgl矢量图:显示正交矢量的直角》经验，为你挑选了0个好方法。 ... [详细]
程序员
Rails，如何测试缺少参数的400个响应

如何解决《Rails，如何测试缺少参数的400个响应》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android Windows:它们何时以及如何创建？

如何解决《AndroidWindows:它们何时以及如何创建？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在编译时使用给定函数初始化纯2D数组

如何解决《在编译时使用给定函数初始化纯2D数组》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么我的表单提交代码不执行？

如何解决《为什么我的表单提交代码不执行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果按下按钮,如何从调用的方法获取返回值？

如何解决《如果按下按钮,如何从调用的方法获取返回值？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jenkins Slave - 如何添加或更新环境变量

如何解决《JenkinsSlave-如何添加或更新环境变量》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么TimedRotatingFileHandler无法正常工作以及如何在日志行中解决此问题(轮换正在工作,但缺少日志行)

如何解决《为什么TimedRotatingFileHandler无法正常工作以及如何在日志行中解决此问题(轮换正在工作,但缺少日志行)》经验，为你挑选了1个好方法。 ... [详细]

农大军乐团_697

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章