如何从脚本中搜索Stack Overflow问题？

作者：大大炮 | 2023-09-04 10:23

如何解决《如何从脚本中搜索StackOverflow问题？》经验，为你挑选了2个好方法。

给定一系列关键字,例如"Python最佳实践",我想获得包含关键字的前10个Stack Overflow问题,按相关性(？)排序,比如Python脚本.我的目标是最终得到一个元组列表(标题,URL).

我怎么能做到这一点？您会考虑查询Google吗？(你会怎么用Python做的？)

1> Jeremy Ruten..：

由于Stackoverflow已经具有此功能,您只需获取搜索结果页面的内容并获取所需的信息.以下是按相关性搜索的网址:

/sf/ask/17360801/?q=python+best+practices&sort=relevance

如果您查看来源,您会看到每个问题所需的信息都在这样的一行:

What are the best RSS feeds for programmers/developers?

因此,您应该能够通过正则表达式搜索该表单的字符串来获得前十个.

2> itsadok..：

>>> from urllib import urlencode
>>> params = urlencode({'q': 'python best practices', 'sort': 'relevance'})
>>> params
'q=python+best+practices&sort=relevance'
>>> from urllib2 import urlopen
>>> html = urlopen("http://stackoverflow.com/search?%s" % params).read()
>>> import re
>>> links = re.findall(r'([^<]*)', html)
>>> links
[('/questions/5119/what-are-the-best-rss-feeds-for-programmersdevelopers#5150', 'What are the best RSS feeds for programmers/developers?'), ('/questions/3088/best-ways-to-teach-a-beginner-to-program#13185', 'Best ways to teach a beginner to program?'), ('/questions/13678/textual-versus-graphical-programming-languages#13886', 'Textual versus Graphical Programming Languages'), ('/questions/58968/what-defines-pythonian-or-pythonic#59877', 'What defines “pythonian” or “pythonic”?'), ('/questions/592/cxoracle-how-do-i-access-oracle-from-python#62392', 'cx_Oracle - How do I access Oracle from Python? '), ('/questions/7170/recommendation-for-straight-forward-python-frameworks#83608', 'Recommendation for straight-forward python frameworks'), ('/questions/100732/why-is-if-not-someobj-better-than-if-someobj-none-in-python#100903', 'Why is if not someobj: better than if someobj == None: in Python?'), ('/questions/132734/presentations-on-switching-from-perl-to-python#134006', 'Presentations on switching from Perl to Python'), ('/questions/136977/after-c-python-or-java#138442', 'After C++ - Python or Java?')]
>>> from urlparse import urljoin
>>> links = [(urljoin('http://stackoverflow.com/', url), title) for url,title in links]
>>> links
[('http://stackoverflow.com/questions/5119/what-are-the-best-rss-feeds-for-programmersdevelopers#5150', 'What are the best RSS feeds for programmers/developers?'), ('http://stackoverflow.com/questions/3088/best-ways-to-teach-a-beginner-to-program#13185', 'Best ways to teach a beginner to program?'), ('http://stackoverflow.com/questions/13678/textual-versus-graphical-programming-languages#13886', 'Textual versus Graphical Programming Languages'), ('http://stackoverflow.com/questions/58968/what-defines-pythonian-or-pythonic#59877', 'What defines “pythonian” or “pythonic”?'), ('http://stackoverflow.com/questions/592/cxoracle-how-do-i-access-oracle-from-python#62392', 'cx_Oracle - How do I access Oracle from Python? '), ('http://stackoverflow.com/questions/7170/recommendation-for-straight-forward-python-frameworks#83608', 'Recommendation for straight-forward python frameworks'), ('http://stackoverflow.com/questions/100732/why-is-if-not-someobj-better-than-if-someobj-none-in-python#100903', 'Why is if not someobj: better than if someobj == None: in Python?'), ('http://stackoverflow.com/questions/132734/presentations-on-switching-from-perl-to-python#134006', 'Presentations on switching from Perl to Python'), ('http://stackoverflow.com/questions/136977/after-c-python-or-java#138442', 'After C++ - Python or Java?')]

将其转换为函数应该是微不足道的.

编辑:哎呀,我会做的......

def get_stackoverflow(query):
    import urllib, urllib2, re, urlparse
    params = urllib.urlencode({'q': query, 'sort': 'relevance'})
    html = urllib2.urlopen("http://stackoverflow.com/search?%s" % params).read()
    links = re.findall(r'([^<]*)', html)
    links = [(urlparse.urljoin('http://stackoverflow.com/', url), title) for url,title in links]

    return links

推荐阅读

程序员
如何在外部缓存目录中为文件设置FileProvider

如何解决《如何在外部缓存目录中为文件设置FileProvider》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何验证Materialize下拉列表的选择选项？

如何解决《如何验证Materialize下拉列表的选择选项？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何防止记录pyspark的“已收到答复”和“发送命令”消息

如何解决《如何防止记录pyspark的“已收到答复”和“发送命令”消息》经验，为你挑选了0个好方法。 ... [详细]
程序员
尾递归映射f#

如何解决《尾递归映射f#》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL Workbench导入限制

如何解决《MySQLWorkbench导入限制》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Windows上的PHP7安装中找不到mysqli类

如何解决《在Windows上的PHP7安装中找不到mysqli类》经验，为你挑选了1个好方法。 ... [详细]
程序员
v-for中的计算/动态v模型名称

如何解决《v-for中的计算/动态v模型名称》经验，为你挑选了1个好方法。 ... [详细]
程序员
在嵌套的MongoDB调用中,如何确保原子性？

如何解决《在嵌套的MongoDB调用中,如何确保原子性？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Intellij - 是否存在for循环类型的自动完成？

如何解决《Intellij-是否存在for循环类型的自动完成？》经验，为你挑选了2个好方法。 ... [详细]
程序员
反向for循环在Postgresql中不起作用

如何解决《反向for循环在Postgresql中不起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
Xamarin表单ListView CachingStrategy

如何解决《Xamarin表单ListViewCachingStrategy》经验，为你挑选了0个好方法。 ... [详细]
程序员
indexOf显然不应该返回-1

如何解决《indexOf显然不应该返回-1》经验，为你挑选了1个好方法。 ... [详细]
程序员
OSError:[Errno 107]传输端点未连接

如何解决《OSError:[Errno107]传输端点未连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使toctree链接引用单独的文件,就像它引用的小节一样

如何解决《如何使toctree链接引用单独的文件,就像它引用的小节一样》经验，为你挑选了1个好方法。 ... [详细]
程序员
pyodbc无法连接到数据库

如何解决《pyodbc无法连接到数据库》经验，为你挑选了1个好方法。 ... [详细]
程序员
最后,除了在python中加注之外,重新发现异常

如何解决《最后,除了在python中加注之外,重新发现异常》经验，为你挑选了1个好方法。 ... [详细]
程序员
删除迁移和makemigrations后的django.db.utils.OperationalError

如何解决《删除迁移和makemigrations后的django.db.utils.OperationalError》经验，为你挑选了1个好方法。 ... [详细]
程序员
片段重用

如何解决《片段重用》经验，为你挑选了1个好方法。 ... [详细]
程序员
评估c中if语句中的表达式

如何解决《评估c中if语句中的表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask API突然没有收到请求

如何解决《FlaskAPI突然没有收到请求》经验，为你挑选了0个好方法。 ... [详细]

大大炮

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章