像Perl或Python中的lex一样模拟功能

作者：和谐啄木鸟 | 2023-09-04 15:54

如何解决《像Perl或Python中的lex一样模拟功能》经验，为你挑选了3个好方法。

这是交易.有没有办法让基于多个正则表达式的行中的字符串标记？

一个例子:

我必须根据不同的正则表达式获取所有href标签,相应的文本和其他一些文本.所以我有3个表达式,并且想要对行进行标记并提取与每个表达式匹配的文本标记.

我实际上是使用flex完成的(不要与Adobe混淆),这是一个很好的老lex的实现.lex通过基于表达式执行"actions"来提供一种优雅的方法.人们也可以控制lex读取文件的方式(基于块/行的读取).

问题是flex实际上产生的C/C++代码实际上是标记化工作.我有一个包含所有这些东西的make文件.我想知道perl/python是否能以某种方式做同样的事情.它只是我想用一种编程语言本身做我喜欢的一切.

令牌化只是我想要在我的应用程序中执行的操作之一.

除了perl或python之外,任何语言(功能也可以)都可以这样做吗？

我在这里读过关于PLY和ANTLR的内容(解析,我在哪里可以了解它).

但有没有办法在python本身自然地做到这一点？请原谅我的无知,但这些工具是否适用于任何受欢迎的产品/服务？

谢谢.

1> slashmais..：

查看以下模块的文档 CPAN

HTML :: TreeBuilder作为

HTML :: TableExtract

和

解析:: RecDescent的

我已经使用这些模块来处理相当大而复杂的网页.

2> pjf..：

如果您专门解析网页中的链接,那么Perl的WWW :: Mechanize模块将以非常优雅的方式为您解决问题.这是一个示例程序,它抓取Stack Overflow的第一页并解析所有链接,打印其文本和相应的URL:

#!/usr/bin/perl
use strict;
use warnings;
use WWW::Mechanize;

my $mech = WWW::Mechanize->new;

$mech->get("http://stackoverflow.com/");

$mech->success or die "Oh no! Couldn't fetch stackoverflow.com";

foreach my $link ($mech->links) {
    print "* [",$link->text, "] points to ", $link->url, "\n";
}

在主循环中,每个$link都是WWW :: Mechanize :: Link对象,因此您不仅限于获取文本和URL.

祝一切顺利,

保罗

3> Jerub..：

听起来你真的只想解析HTML,我建议你看看这些精彩的软件包:

BeautifulSoup

lxml.html

html5lib

要么!您可以使用类似以下之一的解析器:

PyParsing

DParser - 具有良好python绑定的GLR解析器.

ANTLR - 一个递归的解析器生成器,可以生成python代码.

这个例子来自BeautifulSoup 文档:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re

links = SoupStrainer('a')
[tag for tag in BeautifulSoup(doc, parseOnlyThese=links)]
# [success, 
#  experiments, 
#  BoogaBooga]

linksToBob = SoupStrainer('a', href=re.compile('bob.com/'))
[tag for tag in BeautifulSoup(doc, parseOnlyThese=linksToBob)]
# [success, 
#  experiments]

推荐阅读

程序员
尝试将我的Web应用程序从VS Community 2015发布到Azure时出错.错误:找不到现有的已加载项目:http:// localhost:55809

如何解决《尝试将我的Web应用程序从VSCommunity2015发布到Azure时出错.错误:找不到现有的已加载项目:http://localhost:55809》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用gnome-terminal的桌面应用程序:脚本和图标的相对路径

如何解决《使用gnome-terminal的桌面应用程序:脚本和图标的相对路径》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么&p + 1给出与p相同的结果

如何解决《为什么&p+1给出与p相同的结果》经验，为你挑选了1个好方法。 ... [详细]
程序员
Retrofit2.0返回404未找到

如何解决《Retrofit2.0返回404未找到》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java - 返回指定泛型类型的列表

如何解决《Java-返回指定泛型类型的列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Swift在iOS中打印视图

如何解决《使用Swift在iOS中打印视图》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Android PdfDocument API创建PDF文件 - 文件太大

如何解决《使用AndroidPdfDocumentAPI创建PDF文件-文件太大》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用主键作为JPA和Hibernate的外键引用？

如何解决《如何使用主键作为JPA和Hibernate的外键引用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
詹金斯现在需要SVN的"领域".你怎么找到它,应该输入什么？

如何解决《詹金斯现在需要SVN的"领域".你怎么找到它,应该输入什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Java for Android中以编程方式找到"数据"的路径？

如何解决《如何在JavaforAndroid中以编程方式找到"数据"的路径？》经验，为你挑选了1个好方法。 ... [详细]
程序员
从Unity C中的其他脚本访问bool#

如何解决《从UnityC中的其他脚本访问bool#》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从ASP.NET 5 Web Api返回HTTP 500？

如何解决《如何从ASP.NET5WebApi返回HTTP500？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将字符串转换为unsigned int？C

如何解决《如何将字符串转换为unsignedint？C》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ACF从分类术语中获取图像

如何解决《使用ACF从分类术语中获取图像》经验，为你挑选了1个好方法。 ... [详细]
程序员
滚动在chrome中的svg外部对象内部不起作用

如何解决《滚动在chrome中的svg外部对象内部不起作用》经验，为你挑选了0个好方法。 ... [详细]
程序员
C#类转换为类

如何解决《C#类转换为类》经验，为你挑选了1个好方法。 ... [详细]
程序员
在DICTATION_MODE中使用android.speech.SpeechRecognizer时出现延迟

如何解决《在DICTATION_MODE中使用android.speech.SpeechRecognizer时出现延迟》经验，为你挑选了0个好方法。 ... [详细]
程序员
有没有办法获取Spark Dataframe的前1000行？

如何解决《有没有办法获取SparkDataframe的前1000行？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Math.NET C#计算导数

如何解决《使用Math.NETC#计算导数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何覆盖Python中的修饰方法？

如何解决《如何覆盖Python中的修饰方法？》经验，为你挑选了1个好方法。 ... [详细]

和谐啄木鸟

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章