我一直在做很多研究,以找出编写应用程序的最佳方法,以便从几乎任何HTML网页获取主要文章内容.我有一个使用libxml2来解析XML的C程序,但是我遇到了Alchemy API,它看起来像我想做的那样.
但是,它只有一个在线API,我想在不依赖任何外部调用的情况下将应用程序保留在内部.
那么有人有提示吗?我希望有一个离线替代方案,可以做Alchemy API可以做的事情(付费/非付费).
我的替代方案可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容.它将被使用的网站类型包括带有新闻栏目或博客的网站.