实际上有很多免费提供的开源自然语言处理软件包.这是一个简短的列表,按工具包的实现语言组织:
Python:自然语言工具包NLTK
Java:OpenNLP,Gate和斯坦福大学的JavaNLP
.NET:Sharp NLP
如果您不确定要使用哪一个,我建议您从NLTK开始 .该软件包相当容易使用,并且在线提供了很好的文档,包括免费的书籍.
您应该能够使用NLTK轻松完成您列出的NLP任务,例如命名实体识别(NER),提取文档标签和文档分类.
Alchemy人称之为结构化数据提取的内容看起来只是HTML报废,只要页面仍以可视方式呈现相同的方式,就可以对基础HTML的更改进行修改.所以,这不是一个真正的NLP任务.
要从HTML中提取文本,只需使用boilerpipe.它快速,好,免费.
实际上有很多免费提供的开源自然语言处理软件包.这是一个简短的列表,按工具包的实现语言组织:
Python:自然语言工具包NLTK
Java:OpenNLP,Gate和斯坦福大学的JavaNLP
.NET:Sharp NLP
如果您不确定要使用哪一个,我建议您从NLTK开始 .该软件包相当容易使用,并且在线提供了很好的文档,包括免费的书籍.
您应该能够使用NLTK轻松完成您列出的NLP任务,例如命名实体识别(NER),提取文档标签和文档分类.
Alchemy人称之为结构化数据提取的内容看起来只是HTML报废,只要页面仍以可视方式呈现相同的方式,就可以对基础HTML的更改进行修改.所以,这不是一个真正的NLP任务.
要从HTML中提取文本,只需使用boilerpipe.它快速,好,免费.