如何在python/Django中找出给定URL的摘要文本？

作者：和谐啄木鸟 | 2023-08-29 16:40

如何解决《如何在python/Django中找出给定URL的摘要文本？》经验，为你挑选了1个好方法。

如何找出给定URL的摘要文本？

概括文本是什么意思？

默克4.11亿美元先灵葆雅竞标寻求科学

链接描述

默克公司(Merck&Co.)以411亿美元收购先灵葆雅公司(Schering-Plough Corp.),为血栓,感染和精神分裂症添加实验药物,并允许这些公司加快生物技术药物的研究.

对于上面的URL,以下三行是摘要文本.
我们通常通过获取该页面获得的URL的简短2到3行描述,检查内容,然后从该html标记中找出简短描述.

有没有什么好的算法可以做到这一点？(或)
python/django中是否有任何好的库可以做到这一点？

1> Tristan Have..：

我有同样的需求和狐猴,虽然它具有摘要功能,但我发现它有些无法使用.在周末我使用nltk在python中编写一个汇总模块:https://github.com/thavelick/summarize

我在这里从Java库Classifier4J中获取算法:http://classifier4j.sourceforge.net/但是尽可能使用nltk和python.

这是基本用法:

>>> import summarize

SimpleSummarizer(当前唯一的摘要)通过使用最常用单词的句子来进行摘要:

>>> ss = summarize.SimpleSummarizer()
>>> input = "NLTK is a python library for working human-written text. Summarize is a package that uses NLTK to create summaries."
>>> ss.summarize(input, 1)
'NLTK is a python library for working human-written text.'

您可以根据需要在摘要中指定任意数量的sentenecs.

>>> input = "NLTK is a python library for working human-written text. Summarize is a package that uses NLTK to create summaries. A Summariser is really cool. I don't think there are any other python summarisers."
>>> ss.summarize(input, 2)
"NLTK is a python library for working human-written text.  I don't think there are any other python summarisers."

与Classifier4J中的原始算法不同,此摘要生成器与句点以外的标点符号一起正常工作:

>>> input = "NLTK is a python library for working human-written text! Summarize is a package that uses NLTK to create summaries."
>>> ss.summarize(input, 1)
'NLTK is a python library for working human-written text!'

UPDATE

我现在(终于!)在Apache 2.0许可证下发布了这个许可证,与nltk相同的许可证,并将模块放在github上(见上文).欢迎任何贡献或建议.

推荐阅读

程序员
iOS AVPlayer未加载大多数HLS流

如何解决《iOSAVPlayer未加载大多数HLS流》经验，为你挑选了0个好方法。 ... [详细]
程序员
在postgresql jsonb中存储外键是个坏主意？

如何解决《在postgresqljsonb中存储外键是个坏主意？》经验，为你挑选了1个好方法。 ... [详细]
程序员
隐藏在蜂蜜罐场上的咏叹调

如何解决《隐藏在蜂蜜罐场上的咏叹调》经验，为你挑选了0个好方法。 ... [详细]
程序员
PHPUnit自定义断言消息

如何解决《PHPUnit自定义断言消息》经验，为你挑选了0个好方法。 ... [详细]
程序员
如果我在C#商店工作并尝试编写F#只是依靠ILSpy进行转换,会有什么风险？

如何解决《如果我在C#商店工作并尝试编写F#只是依靠ILSpy进行转换,会有什么风险？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Redux形式,自我创建输入

如何解决《Redux形式,自我创建输入》经验，为你挑选了1个好方法。 ... [详细]
程序员
聚合物在IE或边缘不起作用,但在Chrome中它不起作用,但是对于Doctype,它也不能在chrome中起作用

如何解决《聚合物在IE或边缘不起作用,但在Chrome中它不起作用,但是对于Doctype,它也不能在chrome中起作用》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用UWP和x的字符串格式:绑定

如何解决《使用UWP和x的字符串格式:绑定》经验，为你挑选了2个好方法。 ... [详细]
程序员
xlswriter格式化范围

如何解决《xlswriter格式化范围》经验，为你挑选了1个好方法。 ... [详细]
程序员
Mongoose布尔值默认为false

如何解决《Mongoose布尔值默认为false》经验，为你挑选了1个好方法。 ... [详细]
程序员
代码隐藏中的关闭内容对话框

如何解决《代码隐藏中的关闭内容对话框》经验，为你挑选了1个好方法。 ... [详细]
程序员
jquery metismenu无法使用AngularJS控制器加载数据异步

如何解决《jquerymetismenu无法使用AngularJS控制器加载数据异步》经验，为你挑选了1个好方法。 ... [详细]
程序员
Numpy中的矩阵索引

如何解决《Numpy中的矩阵索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Swift中用它创建类和实例对象的数组？

如何解决《如何在Swift中用它创建类和实例对象的数组？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在ANS Forth中发生了什么'嘀嗒'？

如何解决《在ANSForth中发生了什么'嘀嗒'？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在字符串中添加前导零

如何解决《在字符串中添加前导零》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何定义模板类的静态const变量

如何解决《如何定义模板类的静态const变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
领域和iOS保留周期

如何解决《领域和iOS保留周期》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使.htaccess可写入wordpress？

如何解决《如何使.htaccess可写入wordpress？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用单个HTTP/2连接进行双向(和对称)通信

如何解决《使用单个HTTP/2连接进行双向(和对称)通信》经验，为你挑选了1个好方法。 ... [详细]

和谐啄木鸟

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章