20赞

如何使用Python检索网页的页面标题？

作者：kikokikolove | 2023-09-05 18:43

如何解决《如何使用Python检索网页的页面标题？》经验，为你挑选了6个好方法。

如何使用Python检索网页的页面标题(标题html标记)？

1> jfs..：

这是@Vinko Vrsalovic答案的简化版本:

import urllib2
from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen("https://www.google.com"))
print soup.title.string

注意:

soup.title在html文档中的任何位置找到第一个title元素

title.string假定它只有一个子节点,并且该子节点是一个字符串

对于beautifulsoup 4.x,使用不同的导入:

from bs4 import BeautifulSoup

谢谢!如果有人遇到类似的问题,在我的Python3环境中,我不得不使用`urlllib.request`而不是`urllib2`.不知道为什么.为了避免关于我的解析器的BeautifulSoup警告,我不得不做`汤= BeautifulSoup(urllib.request.urlopen(url),"lxml")`.

2> Peter Hoffma..：

我会一直使用lxml来完成这些任务.你也可以使用beautifulsoup.

import lxml.html
t = lxml.html.parse(url)
print t.find(".//title").text

以防您使用上面的代码获得IOError:http://stackoverflow.com/questions/3116269/error-with-parse-function-in-lxml

3> codeape..：

mechanize Browser对象有一个title()方法.所以这篇文章的代码可以改写为:

from mechanize import Browser
br = Browser()
br.open("http://www.google.com/")
print br.title()

4> Vinko Vrsalo..：

这对于这样一个简单的任务来说可能有点过头了,但是如果你打算做更多的事情,那么从这些工具(机械化,BeautifulSoup)开始是更合理的,因为它们比替代品更容易使用(urllib来获取内容和regexen)或其他一些解析html的解析器)

链接: BeautifulSoup 机械化

#!/usr/bin/env python
#coding:utf-8

from BeautifulSoup import BeautifulSoup
from mechanize import Browser

#This retrieves the webpage content
br = Browser()
res = br.open("https://www.google.com/")
data = res.get_data() 

#This parses the content
soup = BeautifulSoup(data)
title = soup.find('title')

#This outputs the content :)
print title.renderContents()

5> Finn..：

使用HTMLParser:

from urllib.request import urlopen
from html.parser import HTMLParser


class TitleParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.match = False
        self.title = ''

    def handle_starttag(self, tag, attributes):
        self.match = True if tag == 'title' else False

    def handle_data(self, data):
        if self.match:
            self.title = data
            self.match = False

url = "http://example.com/"
html_string = str(urlopen(url).read())

parser = TitleParser()
parser.feed(html_string)
print(parser.title)  # prints: Example Domain

6> 小智..：

无需导入其他库.请求具有内置的此功能.

>> hearders = {'headers':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:51.0) Gecko/20100101 Firefox/51.0'}
>>> n = requests.get('http://www.imdb.com/title/tt0108778/', headers=hearders)
>>> al = n.text
>>> al[al.find('') + 7 : al.find('')]
u'Friends (TV Series 1994\u20132004) - IMDb'

推荐阅读

程序员
如何在Typescript React中遍历Component的Children？

如何解决《如何在TypescriptReact中遍历Component的Children？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何将@Configuration和@EnableScheduling与Spring Batch一起使用

如何解决《如何将@Configuration和@EnableScheduling与SpringBatch一起使用》经验，为你挑选了0个好方法。 ... [详细]
程序员
anaconda - windows中的路径环境变量

如何解决《anaconda-windows中的路径环境变量》经验，为你挑选了4个好方法。 ... [详细]
程序员
Haskell的逆向性:从Tardis到RevState

如何解决《Haskell的逆向性:从Tardis到RevState》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用GitPython检查合并是否存在冲突

如何解决《使用GitPython检查合并是否存在冲突》经验，为你挑选了1个好方法。 ... [详细]
程序员
预定的WebJob

如何解决《预定的WebJob》经验，为你挑选了2个好方法。 ... [详细]
程序员
我们怎么知道Activity共享元素转换将会运行？

如何解决《我们怎么知道Activity共享元素转换将会运行？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python中的默认舍入模式,以及如何将其指定为另一个？

如何解决《python中的默认舍入模式,以及如何将其指定为另一个？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何创建一个"外部模块"打字稿定义文件以包含一个npm包？

如何解决《如何创建一个"外部模块"打字稿定义文件以包含一个npm包？》经验，为你挑选了0个好方法。 ... [详细]
程序员
鼠标悬停在轴标签d3.js javascript上的事件

如何解决《鼠标悬停在轴标签d3.jsjavascript上的事件》经验，为你挑选了1个好方法。 ... [详细]
程序员
java中的GUI问题

如何解决《java中的GUI问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
cout << std :: ios :: hex有什么作用？

如何解决《cout<<std::ios::hex有什么作用？》经验，为你挑选了3个好方法。 ... [详细]
程序员
Android Studio Start Failed:初始化'com.intellij.util.net.ssl.certificatemanager'时出现致命错误

如何解决《AndroidStudioStartFailed:初始化'com.intellij.util.net.ssl.certificatemanager'时出现致命错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
是否存在与Perforce的"文件同步到先前版本"图标的Tortoise SVN模拟

如何解决《是否存在与Perforce的"文件同步到先前版本"图标的TortoiseSVN模拟》经验，为你挑选了1个好方法。 ... [详细]
程序员
交叉表故障("返回和sql元组描述不兼容")

如何解决《交叉表故障("返回和sql元组描述不兼容")》经验，为你挑选了1个好方法。 ... [详细]
程序员
用变量base在python中向上计数

如何解决《用变量base在python中向上计数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Jersey StreamingOutput上调用flush()没有任何效果

如何解决《在JerseyStreamingOutput上调用flush()没有任何效果》经验，为你挑选了0个好方法。 ... [详细]
程序员
C#在JSON中搜索而不反序列化

如何解决《C#在JSON中搜索而不反序列化》经验，为你挑选了1个好方法。 ... [详细]
程序员
NSNotification子类与Swift 2.1中的Generics

如何解决《NSNotification子类与Swift2.1中的Generics》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查两个数字是否有不同符号的简单方法？

如何解决《检查两个数字是否有不同符号的简单方法？》经验，为你挑选了1个好方法。 ... [详细]

kikokikolove

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章