使用php计算html网页上的单词

作者：Gbom2402851125 | 2023-07-02 15:20

如何解决《使用php计算html网页上的单词》经验，为你挑选了2个好方法。

我需要一个PHP脚本,它接受一个网页的URL,然后回显一个单词被提到的次数.

例

这是一个通用的HTML页面:

This is the title

some description text here, this is a word.

这将是PHP脚本:

所以输出将是这样的表:

WORDS       Mentions
This        2
is          2
the         1
title       1
some        1
description 1
text        1
a           1
word        1

这就像搜索机器人在网上冲浪时所做的那样,所以,任何想法如何开始,甚至更好,你有一个PHP脚本已经这样做了吗？

1> Peter Ajtai..：

从字符串中删除所有HTML标记后,下面的一行将执行不区分大小写的字数.

实例

print_r(array_count_values(str_word_count(strip_tags(strtolower($str)), 1)));

要获取页面的源代码,您可以使用cURL或file_get_contents()

$str = file_get_contents('http://www.example.com/');

从内到外:

使用strtolower()将所有内容都设置为小写.

使用strip_tags()去除HTML标记

使用str_word_count()创建一个单词数组.该参数1 返回一个数组,其中包含在字符串中找到的所有单词.

使用array_count_values()通过计算单词数组中每个值的出现次数来捕获多次使用的单词.

使用print_r()显示结果.

2> ConroyP..：

下面的脚本将读取远程URL的内容,删除html标记,并计算其中每个唯一单词的出现次数.

警告:在您的预期输出中,"This"的值为2,但下面区分大小写,因此"this"和"This"都记录为单独的单词.如果原始案例对您的目的不重要,您可以在处理之前将整个输入字符串转换为小写字母.

此外,由于仅在输入上运行基本的strip_tags,因此不会删除格式错误的标记,因此假设您的源html有效.

编辑:查理在评论中指出,该head部分之类的内容仍将被计算在内.借助strip_tags函数的用户注释中定义的函数,现在也可以使用这些函数.

generichtml.com

This is the title

some description text here, this is a word.

parser.php

// Fetch remote html
$contents = file_get_contents($htmlurl);

// Get rid of style, script etc
$search = array('@]*?>.*?@si',  // Strip out javascript
           '@.*?@siU',            // Lose the head section
           '@]*?>.*?@siU',    // Strip style tags properly
           '@@'         // Strip multi-line comments including CDATA
);

$contents = preg_replace($search, '', $contents); 

$result = array_count_values(
              str_word_count(
                  strip_tags($contents), 1
                  )
              );

print_r($result);

？>

输出:

Array
(
    [This] => 1
    [is] => 2
    [the] => 1
    [title] => 1
    [some] => 1
    [description] => 1
    [text] => 1
    [here] => 1
    [this] => 1
    [a] => 1
    [word] => 1
)

推荐阅读

程序员
我们能否从他们的限制中推断出两个阶级的关系？

如何解决《我们能否从他们的限制中推断出两个阶级的关系？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Ext.MessageBox.confirm自定义按钮

如何解决《Ext.MessageBox.confirm自定义按钮》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在没有调用onCreate()的情况下返回First活动

如何解决《如何在没有调用onCreate()的情况下返回First活动》经验，为你挑选了1个好方法。 ... [详细]
程序员
Mongo中findOne和find_one有什么区别？

如何解决《Mongo中findOne和find_one有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
当提交足够的任务时,修复了线程池线程阻塞

如何解决《当提交足够的任务时,修复了线程池线程阻塞》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在pyspark中找到两个rdd的交叉点？

如何解决《如何在pyspark中找到两个rdd的交叉点？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么以下函数不是尾递归？

如何解决《为什么以下函数不是尾递归？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否有适用于AWS Lambda的模拟器？

如何解决《是否有适用于AWSLambda的模拟器？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在迁移层5.1中设置自动增量字段开始表单1000

如何解决《在迁移层5.1中设置自动增量字段开始表单1000》经验，为你挑选了3个好方法。 ... [详细]
程序员
std :: string :: assign vs std :: string :: operator =

如何解决《std::string::assignvsstd::string::operator=》经验，为你挑选了1个好方法。 ... [详细]
程序员
未找到AngularJS控制器,未定义

如何解决《未找到AngularJS控制器,未定义》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么不能只读取属性

如何解决《为什么不能只读取属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
TCriticalSection TryEnter方法始终返回True

如何解决《TCriticalSectionTryEnter方法始终返回True》经验，为你挑选了0个好方法。 ... [详细]
程序员
四舍五入到MySQL中的最高.5值

如何解决《四舍五入到MySQL中的最高.5值》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从waitgroup调用的函数中捕获运行时错误？

如何解决《如何从waitgroup调用的函数中捕获运行时错误？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Pydub from_mp3给出[Errno 2]没有这样的文件或目录

如何解决《Pydubfrom_mp3给出[Errno2]没有这样的文件或目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
Maven:无法执行目标org.codehaus.mojo:sonar-maven-plugin:2.7.1:声纳

如何解决《Maven:无法执行目标org.codehaus.mojo:sonar-maven-plugin:2.7.1:声纳》经验，为你挑选了0个好方法。 ... [详细]
程序员
从Maven控制台删除logback`INFO`消息以进行junit测试

如何解决《从Maven控制台删除logback`INFO`消息以进行junit测试》经验，为你挑选了1个好方法。 ... [详细]
程序员
Firebase.ServerValue.TIMESTAMP未在侦听器与实际添加数据的客户端之间同步

如何解决《Firebase.ServerValue.TIMESTAMP未在侦听器与实际添加数据的客户端之间同步》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何用空格分割字符串并在结果中包含空格作为元素？多个空格分割

如何解决《如何用空格分割字符串并在结果中包含空格作为元素？多个空格分割》经验，为你挑选了1个好方法。 ... [详细]

Gbom2402851125

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章