从HTML文档中刮取最大的文本块

作者：jerry613 | 2023-09-02 19:51

如何解决《从HTML文档中刮取最大的文本块》经验，为你挑选了2个好方法。

我正在研究一种算法,在给定HTML文件的情况下,它会尝试选择它认为最有可能包含页面大部分内容文本的父元素.例如,它将在以下HTML中选择div"content":


   
      This is the header we don't care about
      This is the Main Page content.  it is the
      longest block of text in this document and should be chosen as
      most likely being the important page content.

我想出了一些想法,比如遍历HTML文档树到它的叶子,加上文本的长度,只看到父母给我们的内容比孩子更多的其他文本.

有没有人尝试过这样的东西,或者知道可以应用的算法？它不必是可靠的,但只要它能猜出包含大部分页面内容文本的容器(例如文章或博客文章),那就太棒了.

1> Max..：

一个字:Boilerpipe

2> Borgar..：

以下是我将如何处理这个问题:

// get array of all elements (body is used as parent here but you could use whatever)
var elms = document.body.getElementsByTagName('*');
var nodes = Array.prototype.slice.call( elms, 0 );

// get inline elements out of the way (incomplete list)
nodes = nodes.filter(function (elm) {
  return !/^(a|br?|hr|code|i(ns|mg)?|u|del|em|s(trong|pan))$/i.test( elm.nodeName );
});

// sort elements by most text first
nodes.sort(function(a,b){
  if (a.textContent.length == b.textContent.length) return 0;
  if (a.textContent.length > b.textContent.length)  return -1;
  return 1;
});

使用类似的祖先函数a.compareDocumentPosition(b),您还可以在排序期间(或之后)接收元素,具体取决于此事物需要的复杂程度.

推荐阅读

程序员
plt.tight_layout()与sns.clustermap

如何解决《plt.tight_layout()与sns.clustermap》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何增加MongoDB中索引引用的数组元素？

如何解决《如何增加MongoDB中索引引用的数组元素？》经验，为你挑选了0个好方法。 ... [详细]
程序员
AndroidManifest xml文件中android:supportsRtl ="true"的用途是什么？

如何解决《AndroidManifestxml文件中android:supportsRtl="true"的用途是什么？》经验，为你挑选了3个好方法。 ... [详细]
程序员
ActionBar与工具栏或ActionBar和工具栏

如何解决《ActionBar与工具栏或ActionBar和工具栏》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Javascript中声明函数的最有效方法是什么？

如何解决《在Javascript中声明函数的最有效方法是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Facebook PHP SDK获取Facebook广告内容

如何解决《使用FacebookPHPSDK获取Facebook广告内容》经验，为你挑选了0个好方法。 ... [详细]
程序员
Erlang中的排列示例

如何解决《Erlang中的排列示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
函数返回类型是否会影响过载的选择？

如何解决《函数返回类型是否会影响过载的选择？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用不相等的索引将系列分配给DataFrame

如何解决《使用不相等的索引将系列分配给DataFrame》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure Elastic DB中ReferenceTableInfo与ShardedTableInfo有什么区别？

如何解决《AzureElasticDB中ReferenceTableInfo与ShardedTableInfo有什么区别？》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法创建Google Analytics配置文件

如何解决《无法创建GoogleAnalytics配置文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
当我从虚拟基础派生D时,为什么在VS2015中sizeof(D)增加了8个字节？

如何解决《当我从虚拟基础派生D时,为什么在VS2015中sizeof(D)增加了8个字节？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么新的Date()函数在chrome和firefox中提供不同的输出

如何解决《为什么新的Date()函数在chrome和firefox中提供不同的输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
Numpy列和行向量

如何解决《Numpy列和行向量》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以使用实际Chrome安装的Cookie运行Selenium ChromeDriver吗？

如何解决《我可以使用实际Chrome安装的Cookie运行SeleniumChromeDriver吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用C++编译比使用C++ 98慢11？

如何解决《使用C++编译比使用C++98慢11？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用webpack构建时mime-db\db.json出错

如何解决《使用webpack构建时mime-db\db.json出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
Elixir阻止了GenServer进程

如何解决《Elixir阻止了GenServer进程》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Android电视上显示数字软件键盘？

如何解决《如何在Android电视上显示数字软件键盘？》经验，为你挑选了0个好方法。 ... [详细]
程序员
从阵列打印值有时不起作用

如何解决《从阵列打印值有时不起作用》经验，为你挑选了1个好方法。 ... [详细]

jerry613

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

DevBox开发工具箱 | 专业的在线开发工具网站