12赞

如何将HTML表格刮到CSV？

作者：手机用户2502851955 | 2023-09-03 12:41

如何解决《如何将HTML表格刮到CSV？》经验，为你挑选了4个好方法。

使用python:

例如,假设你想从一些这样的网站凑在CSV形式的外汇报价:fxquotes

然后...

from BeautifulSoup import BeautifulSoup
import urllib,string,csv,sys,os
from string import replace

date_s = '&date1=01/01/08'
date_f = '&date=11/10/08'
fx_url = 'http://www.oanda.com/convert/fxhistory?date_fmt=us'
fx_url_end = '&lang=en&margin_fixed=0&format=CSV&redirected=1'
cur1,cur2 = 'USD','AUD'
fx_url = fx_url + date_f + date_s + '&exch=' + cur1 +'&exch2=' + cur1
fx_url = fx_url +'&expr=' + cur2 +  '&expr2=' + cur2 + fx_url_end
data = urllib.urlopen(fx_url).read()
soup = BeautifulSoup(data)
data = str(soup.findAll('pre', limit=1))
data = replace(data,'[','')
data = replace(data,']','')
file_location = '/Users/location_edit_this'
file_name = file_location + 'usd_aus.csv'
file = open(file_name,"w")
file.write(data)
file.close()

编辑:从表中获取值:示例来自:palewire

from mechanize import Browser
from BeautifulSoup import BeautifulSoup

mech = Browser()

url = "http://www.palewire.com/scrape/albums/2007.html"
page = mech.open(url)

html = page.read()
soup = BeautifulSoup(html)

table = soup.find("table", border=1)

for row in table.findAll('tr')[1:]:
    col = row.findAll('td')

    rank = col[0].string
    artist = col[1].string
    album = col[2].string
    cover_link = col[3].img['src']

    record = (rank, artist, album, cover_link)
    print "|".join(record)

Juan A. Nava.. 10

这是我使用(当前)最新版本的BeautifulSoup的python版本,可以使用,例如,

$ sudo easy_install beautifulsoup4

该脚本从标准输入读取HTML,并以适当的CSV格式输出所有表中的文本.

#!/usr/bin/python
from bs4 import BeautifulSoup
import sys
import re
import csv

def cell_text(cell):
    return " ".join(cell.stripped_strings)

soup = BeautifulSoup(sys.stdin.read())
output = csv.writer(sys.stdout)

for table in soup.find_all('table'):
    for row in table.find_all('tr'):
        col = map(cell_text, row.find_all(re.compile('t[dh]')))
        output.writerow(col)
    output.writerow([])

dkretz.. 5

更容易(因为它为你下次保存它)...

在Excel中

数据/导入外部数据/新Web查询

会带你到网址提示.输入您的网址,它将分隔要导入的页面上的可用表格.瞧.

1> mkoeller..：

在工具的UI中选择HTML表格并将其复制到剪贴板中(如果可能的话)

将其粘贴到Excel中.

保存为CSV文件

但是,这是一种手动解决方案而非自动化解决方案.

2> Thorvaldur..：

使用python:

例如,假设你想从一些这样的网站凑在CSV形式的外汇报价:fxquotes

然后...

from BeautifulSoup import BeautifulSoup
import urllib,string,csv,sys,os
from string import replace

date_s = '&date1=01/01/08'
date_f = '&date=11/10/08'
fx_url = 'http://www.oanda.com/convert/fxhistory?date_fmt=us'
fx_url_end = '&lang=en&margin_fixed=0&format=CSV&redirected=1'
cur1,cur2 = 'USD','AUD'
fx_url = fx_url + date_f + date_s + '&exch=' + cur1 +'&exch2=' + cur1
fx_url = fx_url +'&expr=' + cur2 +  '&expr2=' + cur2 + fx_url_end
data = urllib.urlopen(fx_url).read()
soup = BeautifulSoup(data)
data = str(soup.findAll('pre', limit=1))
data = replace(data,'[','')
data = replace(data,']','')
file_location = '/Users/location_edit_this'
file_name = file_location + 'usd_aus.csv'
file = open(file_name,"w")
file.write(data)
file.close()

编辑:从表中获取值:示例来自:palewire

from mechanize import Browser
from BeautifulSoup import BeautifulSoup

mech = Browser()

url = "http://www.palewire.com/scrape/albums/2007.html"
page = mech.open(url)

html = page.read()
soup = BeautifulSoup(html)

table = soup.find("table", border=1)

for row in table.findAll('tr')[1:]:
    col = row.findAll('td')

    rank = col[0].string
    artist = col[1].string
    album = col[2].string
    cover_link = col[3].img['src']

    record = (rank, artist, album, cover_link)
    print "|".join(record)

3> Juan A. Nava..：

这是我使用(当前)最新版本的BeautifulSoup的python版本,可以使用,例如,

$ sudo easy_install beautifulsoup4

该脚本从标准输入读取HTML,并以适当的CSV格式输出所有表中的文本.

#!/usr/bin/python
from bs4 import BeautifulSoup
import sys
import re
import csv

def cell_text(cell):
    return " ".join(cell.stripped_strings)

soup = BeautifulSoup(sys.stdin.read())
output = csv.writer(sys.stdout)

for table in soup.find_all('table'):
    for row in table.find_all('tr'):
        col = map(cell_text, row.find_all(re.compile('t[dh]')))
        output.writerow(col)
    output.writerow([])

4> dkretz..：

更容易(因为它为你下次保存它)...

在Excel中

数据/导入外部数据/新Web查询

会带你到网址提示.输入您的网址,它将分隔要导入的页面上的可用表格.瞧.

推荐阅读

程序员
从服务器关闭akka-http websocket连接

如何解决《从服务器关闭akka-httpwebsocket连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
将包括其他值的最重复值排在前面

如何解决《将包括其他值的最重复值排在前面》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Text Kit使用UITextView插入UITextFields？

如何解决《使用TextKit使用UITextView插入UITextFields？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用指针实现strcat()

如何解决《使用指针实现strcat()》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法修改正在运行的倒计时？

如何解决《有没有办法修改正在运行的倒计时？》经验，为你挑选了0个好方法。 ... [详细]
程序员
CSS3动画 - 使用转换时不会触发animationstart事件:

如何解决《CSS3动画-使用转换时不会触发animationstart事件:》经验，为你挑选了1个好方法。 ... [详细]
程序员
ObjectMapper.readValue可以返回null值吗？

如何解决《ObjectMapper.readValue可以返回null值吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
NServiceBus作为批处理消息

如何解决《NServiceBus作为批处理消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java Array Loop outofbound

如何解决《JavaArrayLoopoutofbound》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++是否使用静态名称解析或动态名称解析？

如何解决《C++是否使用静态名称解析或动态名称解析？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这个表达式评估为0？

如何解决《为什么这个表达式评估为0？》经验，为你挑选了2个好方法。 ... [详细]
程序员
剥离删除比预期更多的字符

如何解决《剥离删除比预期更多的字符》经验，为你挑选了1个好方法。 ... [详细]
程序员
C++向量迭代错误

如何解决《C++向量迭代错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
反滚动两个div

如何解决《反滚动两个div》经验，为你挑选了0个好方法。 ... [详细]
程序员
c#socket接收字节数组长度

如何解决《c#socket接收字节数组长度》经验，为你挑选了0个好方法。 ... [详细]
程序员
弹簧websocket与sockjs和stomp客户端设计

如何解决《弹簧websocket与sockjs和stomp客户端设计》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找数据框中每行的前N列

如何解决《查找数据框中每行的前N列》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何更有效地检查错误的值

如何解决《如何更有效地检查错误的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
Hibernate Envers:@Audited在一个子类上

如何解决《HibernateEnvers:@Audited在一个子类上》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL循环,如果BREAK

如何解决《SQL循环,如果BREAK》经验，为你挑选了1个好方法。 ... [详细]

手机用户2502851955

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章