我知道拼写检查不完美,但随着你的文字数量的增加,它们会变得更有用.如何拼写检查有数千页的网站?
编辑:由于复杂的服务器端处理,我可以获取页面的唯一方法是通过HTTP.它也不能外包给第三方.
编辑:我有一个网站上我需要检查的所有网址的列表.
Lynx似乎善于获取我需要的文本(正文内容和替代文本)并忽略我不需要的内容(嵌入式Javascript和CSS).
lynx -dump http://www.example.com
它还列出了页面中的所有URL(转换为其绝对形式),可以使用grep过滤掉:
lynx -dump http://www.example.com | grep -v "http"
file://
如果我使用wget镜像站点,URL也可以是local().
我将编写一个脚本,使用此方法处理一组URL,并将每个页面输出到单独的文本文件.然后,我可以使用现有的拼写检查解决方案来检查文件(或组合所有小文件的单个大文件).
这将忽略标题和元元素中的文本.这些可以单独拼写检查.