当用户进入我的页面时,我必须进行另一个AJAX调用...以在div中加载数据.这就是我的应用程序的工作原理.
问题是......当我查看此代码的来源时,它不包含该AJAX的源代码.当然,当我做wget URL时......它也没有显示AJAX HTML.说得通.
但谷歌怎么样?Google能否抓取内容,就好像它是一个浏览器一样?如何让Google像对待用户一样抓取我的网页?
尽管有上述问题的答案,显然它不解释JavaScript,以便在一定程度上,根据马特·卡茨:
"有一段时间,我们在JavaScript中扫描,我们正在寻找链接.谷歌已经变得更聪明,可以执行一些JavaScript.我不会说我们执行所有JavaScript,所以我们有一些条件不要执行JavaScript.当然有一些常见的,着名的JavaScript之类的东西,比如谷歌分析,你甚至不想执行,因为你不想尝试从谷歌分析中生成幽灵访问到你的谷歌分析".
(为什么回答一个已回答的问题?主要是因为我刚刚看到它,因为今天发布的重复问题,并且在这里没有看到此信息.)
实际上...... Google确实有一个抓取Ajax应用程序的解决方案......
http://code.google.com/web/ajaxcrawling/docs/getting-started.html
更新:从关于"Ajax生成的内容,抓取和黑名单"的问题的答案中,我找到了关于Google抓取AJAX请求的方式的文档,这是关于使AJAX应用程序可抓取的文档集合的一部分.
简而言之,这意味着您需要使用...
而不是...
然后提供URL的真实服务器端答案path/to/path?_escaped_fragment_=data
.
还要考虑一个标签,为爬虫提供SEO友好内容的提示.
,这篇文章解释了一下,是一个很好的候选人
注意:我从以下网址获得了答案:https://stackoverflow.com/questions/10006825/search-engine-misunderstanting/10006925#comment12792862_10006925 因为我似乎无法删除我的.