我有一个txt文件,实际上是某个网页的html源代码.在该txt文件中,有各种字符串,前面是"title ="标记.例如
我有兴趣将文本连接框架引入并写入单独的文件.
与此类似,也有每个具有所有权后不同的文字很多这样的标签="这里一些文字,我需要提取"我想从HTML源/ TXT文件中提取文本的所有这样的情况下,写一个单独的TXT文件.文本可以包含小写字母,大写字母和数字.每个文本字符串的长度(以字符为单位)会有所不同.
我正在使用PowerGrep for windows.Powergrep允许我使用正则表达式inout搜索文本文件.我尝试使用搜索作为title ='[a-zA-Z0-9]
它显示了正确的比赛,但只有字符串的第一个字符匹配,并且只写匹配到第二个txt文件,而不是所有的字符串文本字符串的第一个字符.
我希望所有字符串都匹配并写入第二个文件.
什么是正确的正则表达式或办法做我想做的事,使用powergrep?
-广告.
1> cletus..:我只是不确定有多少次必须要求正确表达式解析HTML文件的问题(并使用"使用DOM解析器"的正确解决方案来回答).它每天都会出现.
困难是:
在HTML中,属性可以有单引号,双引号甚至没有引号;
类似的字符串可以出现在HTML文档本身中;
你必须处理正确的逃避; 和
格式错误的HTML(适当的解析器对常见错误非常强大).
因此,如果您满足所有这些(并且它是一个相当复杂但仍然不完美的正则表达式),它仍然不是100%.
HTML解析器存在是有原因的.使用它们.
推荐阅读
如何解决《EmbeddableCommon-Lispasdf:defsystem返回无效的相对路径名》经验,为你挑选了1个好方法。 ... [详细] 如何解决《不允许使用依赖于Julia中类型定义中的整数类型参数的表达式》经验,为你挑选了1个好方法。 ... [详细] 如何解决《在共享索引上加入PandasDataframes》经验,为你挑选了0个好方法。 ... [详细] 如何解决《我的代码输出异常》经验,为你挑选了1个好方法。 ... [详细] 如何解决《在AOSP上设置默认应用程序》经验,为你挑选了1个好方法。 ... [详细] 如何解决《从python生成器接收'return'值的最佳方法》经验,为你挑选了2个好方法。 ... [详细] 如何解决《使用.NET的ANSI着色控制台输出》经验,为你挑选了2个好方法。 ... [详细] 如何解决《有人可以帮我在java中翻译这行代码吗?》经验,为你挑选了1个好方法。 ... [详细] 如何解决《迭代器begin()应该包含3,输出说2?》经验,为你挑选了1个好方法。 ... [详细] 如何解决《以固定的可拖动div为中心》经验,为你挑选了0个好方法。 ... [详细] 如何解决《Oracle中日志记录/nologging选项的用途是什么》经验,为你挑选了1个好方法。 ... [详细] 如何解决《Swift:如何在一组特定字符后获取所有内容》经验,为你挑选了2个好方法。 ... [详细] 如何解决《大约每分钟运行一次任务而不使用Thread.Sleep》经验,为你挑选了2个好方法。 ... [详细] 如何解决《Marshmallow:无法从服务执行Settings.System.canWrite(Context)》经验,为你挑选了0个好方法。 ... [详细] 如何解决《如果远程删除日历,是否会重复使用Android的"唯一"Calendars._ID值?》经验,为你挑选了0个好方法。 ... [详细] 如何解决《导出DynamicsCRM解决方案中的计算字段》经验,为你挑选了0个好方法。 ... [详细] 如何解决《渲染前景对象中的静态对象/鼠标事件不可见的对象》经验,为你挑选了1个好方法。 ... [详细] 如何解决《Fastlane提供配置文件疯狂》经验,为你挑选了1个好方法。 ... [详细] 如何解决《如何在swift中向服务器发出HTTPS请求?》经验,为你挑选了1个好方法。 ... [详细] 如何解决《Spark:每个执行程序的核心对应用程序运行时没有影响》经验,为你挑选了1个好方法。 ... [详细]吐了个 "CAO" !Tags | 热门标签RankList | 热门文章
- 1如何在Swift中获取图像文件大小?
- 2Visual Studio 2015没有自动更新来更新1?
- 3如何计算String的高度?
- 4在AngularJS输入中的@符号后填写完整的电子邮件域
- 5从类库访问到vNext中的appsetting.json或config.json
- 6单击Submitt后平滑滚动到DIV
- 7异步WebRequest冻结应用程序
- 8处理应用程序中的不同用户类型
- 9如何实现100万个节点的链表?
- 10Windows应用认证工具包挂起
- 11Java.exe退出代码1. Xamarin
- 12获取控制器中的环境值
- 13使用NOT IN的DELETE的性能(选择...)
- 14针对Firefox-to-Chrome和Chrome-to-Firefox的WebRTC视频聊天无效
- 15如何在uwp上模糊网格背景?
- 16查找文件的父ID:Google Drive API V3
- 17通过读取Python的dask模块中的pickle文件来创建dask数据帧
- 18将Hex字符串转换为Int时的java.lang.NumberFormatException
- 19管道多部分表单上传到另一台服务器
- 20在设置Android应用程序的区域设置后,SharedPrefs正在重置
DevBox开发工具箱 | 专业的在线开发工具网站 京公网安备 11010802040832号 | 京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有