当前位置:  开发笔记 > 编程语言 > 正文

如何在文本中搜索某人的姓名?(启发式)

如何解决《如何在文本中搜索某人的姓名?(启发式)》经验,为你挑选了2个好方法。

我有一个庞大的人名全名列表,我必须在一个巨大的文字中搜索.

只有部分名称可能出现在文本中.而且有可能被拼错,misstyped简写为.文本没有令牌,因此我不知道文本中人名的起源.如果知道该名称是否会出现在文本中,我也不知道.

例:

我的名单中有"Barack Hussein Obama",因此我必须在以下文本中检查该名称的出现情况:

...候选人巴拉克奥巴马当选为美国总统......(不完整)

......候选人巴拉克·侯赛因当选为美国总统......(不完整)

......候选人Barack HO被选为美国总统......(简称)

......候选人巴拉克·奥巴纳当选为美国总统......(拼写错误)

......候选人巴拉克·奥瓦马当选为美国总统......(错误排列,B在V旁边)

...候选人约翰麦凯恩输掉了选举......(没有出现奥巴马的名字)

Certanily没有确定性的解决方案,但......

这种搜索有什么好的启发式方法?

如果你不得不,你会怎么做?



1> Joel Spolsky..:

你说它大概有200页.

将其分为200页的单页PDF.

将每页都放在Mechanical Turk上,同时列出名称.每页约5美元的奖励.



2> joegtp..:

拆除空格中的所有内容,删除特殊字符(逗号,句号等).然后使用像soundex这样的东西来处理拼写错误.或者,如果你需要搜索大量的文档,你可以使用像lucene这样的东西.

推荐阅读
mobiledu2402851173
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有