当前位置:  开发笔记 > Android > 正文

从网页中提取"最佳"图像的技术

如何解决《从网页中提取"最佳"图像的技术》经验,为你挑选了1个好方法。

我正在尝试为我的网站构建类似于Facebook的"共享"功能.

我已经到了可以接受URL的地步,抓取元关键字并适当地获取标题/描述,但我有点卡住了确定用户可能想要分享的"可能"照片的最佳方式.

我目前使用SimpleXMLElement将页面转换为可遍历的DOM,并找到所有标记,将它们转换为绝对URL.在那之后,我不确定如何找到合适的缩略图.

我是否全部下载它们,并按文件大小排序?我是否使用某种启发式方法,"在页面中间遇到"?

有没有其他人有任何建议,建议或提示?



1> nathanchere..:

我刚才写了类似的东西,以便从博客文章中获取图片.我选择图像的标准类似于获取页面上所有图像的列表然后分配"优先级点":

忽略从AdBlocker列表中获取的黑名单托管的图像

忽略间接图像,例如链接到样式表或IFRAME

忽略50像素宽或高的图像

忽略不止一次重复的图像

为从主机白名单托管的图像分配优先级点(例如photobucket,imageshack.us)

将优先级点分配给页面上最大的3个图像

为同一主机上的图像分配优先级点

为定义了ALT标记的图像指定优先级点

为P标签中出现的图像指定优先级点

然后选择优先级最高的那个.它当然不是万无一失或过于科学,但它经常得到有用的东西.

推荐阅读
手机用户2402852387
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有