当前位置:  开发笔记 > 前端 > 正文

HTML文章内容提取 - Alchemy API替代方案

如何解决《HTML文章内容提取-AlchemyAPI替代方案》经验,为你挑选了0个好方法。
如何解决《HTML文章内容提取-AlchemyAPI替代方案》经验,为你挑选了0个好方法。

我一直在做很多研究,以找出编写应用程序的最佳方法,以便从几乎任何HTML网页获取主要文章内容.我有一个使用libxml2来解析XML的C程序,但是我遇到了Alchemy API,它看起来像我想做的那样.

但是,它只有一个在线API,我想在不依赖任何外部调用的情况下将应用程序保留在内部.

那么有人有提示吗?我希望有一个离线替代方案,可以做Alchemy API可以做的事情(付费/非付费).

我的替代方案可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容.它将被使用的网站类型包括带有新闻栏目或博客的网站.

推荐阅读
臭小子
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有