我正在使用VB9(VS2008)和Lucene.NET开发桌面搜索引擎.Lucene.NET中的Indexer仅接受原始文本数据,因此无法直接从Microsoft Office(DOC,DOCX,PPT,PPTX)和PDF文档中提取原始文本.从这些文件中提取原始文本数据的最佳方法是什么?
您可以像Windows桌面搜索一样使用实现IFilter接口的组件.
从.NET使用的示例
指向IFilter实现的链接
IFilter接口的描述