在HTML页面上识别结构化数据的最佳算法是什么?
例如,Google会在电子邮件中识别家庭/公司的地址,并提供此地址的地图.
诸如GATE之类的命名实体提取框架至少解决了地点的信息提取问题,由已知地点的地名词典协助以帮助解决常见问题.除非页面是从公共源生成的机器,否则您将发现正常表达式对于作业来说有点弱.