我正在尝试为我的网站构建类似于Facebook的"共享"功能.
我已经到了可以接受URL的地步,抓取元关键字并适当地获取标题/描述,但我有点卡住了确定用户可能想要分享的"可能"照片的最佳方式.
我目前使用SimpleXMLElement将页面转换为可遍历的DOM,并找到所有标记,将它们转换为绝对URL.在那之后,我不确定如何找到合适的缩略图.
我是否全部下载它们,并按文件大小排序?我是否使用某种启发式方法,"在页面中间遇到"?
有没有其他人有任何建议,建议或提示?
我刚才写了类似的东西,以便从博客文章中获取图片.我选择图像的标准类似于获取页面上所有图像的列表然后分配"优先级点":
忽略从AdBlocker列表中获取的黑名单托管的图像
忽略间接图像,例如链接到样式表或IFRAME
忽略50像素宽或高的图像
忽略不止一次重复的图像
为从主机白名单托管的图像分配优先级点(例如photobucket,imageshack.us)
将优先级点分配给页面上最大的3个图像
为同一主机上的图像分配优先级点
为定义了ALT标记的图像指定优先级点
为P标签中出现的图像指定优先级点
然后选择优先级最高的那个.它当然不是万无一失或过于科学,但它经常得到有用的东西.