这是我遇到的问题,我有一套可以快速增长的日志.它们每天都被分成单独的文件,文件可以很容易地增长到一个大小的演出.为了帮助减小尺寸,超过30天左右的条目将被清除.
问题是我想在这些文件中搜索某个字符串.现在,Boyer-Moore搜索速度慢得令人难以置信.我知道像dtSearch这样的应用程序可以使用索引提供非常快速的搜索,但我不确定如何在不占用日志占用空间的两倍的情况下实现它.
有没有我可以查看的资源可以提供帮助?我真的在寻找一种标准算法,它将解释我应该如何构建索引并使用它来搜索.
编辑:
Grep将无法正常工作,因为此搜索需要集成到跨平台应用程序中.我无法摆动包括任何外部程序.
它的工作方式是有一个带有日志浏览器的Web前端.这与自定义C++ Web服务器后端进行了对话.此服务器需要在合理的时间内搜索日志.目前搜索几个日志需要很长时间.
编辑2:其中一些建议很好,但我必须重申,我无法整合另一个应用程序,这是合同的一部分.但是,为了回答一些问题,日志中的数据不同于接收到的医疗保健特定格式的消息或与这些格式相关的消息.我希望依赖索引,因为虽然重建索引可能需要一分钟,但搜索目前需要很长时间(我已经看到它需要2.5分钟).此外,在记录之前,很多数据都被丢弃了.除非启用某些调试日志记录选项,否则将忽略一半以上的日志消息.
搜索基本上是这样的:Web表单上的用户会看到最新消息的列表(在滚动时从磁盘流式传输,yay用于ajax),通常,他们希望搜索包含某些信息的消息它,可能是患者ID,或者他们发送的一些字符串,因此他们可以将字符串输入搜索.搜索以异步方式发送,并且自定义Web服务器一次性线性搜索1MB的日志以获得某些结果.当日志变大时,此过程可能需要很长时间.而这正是我想要优化的.
grep
对于我来说通常很适合使用大日志(有时是12G +).您也可以在这里找到适用于Windows的版本.