有时,当用户将数据复制并粘贴到输入表单时,我们会得到如下字符:
没有,"对于开头报价和 - 对于最终报价等等......
我使用这个例程来清理Web表单上的大多数输入(我刚才写了它,但我也在寻找改进):
function fnSanitizePost($data) //escapes,strips and trims all members of the post array { if(is_array($data)) { $areturn = array(); foreach($data as $skey=>$svalue) { $areturn[$skey] = fnSanitizePost($svalue); } return $areturn; } else { if(!is_numeric($data)) { //with magic quotes on, the input gets escaped twice, which means that we have to strip those slashes. leaving data in your database with slashes in them, is a bad idea if(get_magic_quotes_gpc()) //gets current configuration setting of magic quotes { $data = stripslahes($data); } $data = pg_escape_string($data); //escapes a string for insertion into the database $data = strip_tags($data); //strips HTML and PHP tags from a string } $data = trim($data); //trims whitespace from beginning and end of a string return $data; } }
我真的想避免上面提到的字符存储在数据库中,我是否需要在我的清理程序中添加一些正则表达式替换?
谢谢,
-
尼古拉斯
没有,"对于开头的报价和 - 对于最终报价
这不是垃圾,这些是合法的"智能引用"字符,已经传递给你编码为UTF-8,但读取错误,为ISO-8859-1.
您可以尝试摆脱它们或尝试使用utf_decode将它们解析为普通的旧Latin-1,但如果您这样做,您将拥有一个不会让您在ASCII之外键入任何内容的应用程序,这在当今时代就是一场非常糟糕的节目.
更好的是,如果你可以管理它是将所有页面作为UTF-8,所有表单提交以UTF-8形式提供,所有数据库内容以UTF-8格式存储.理想情况下,您的应用程序将在内部使用所有Unicode字符,但不幸的是,PHP作为一种语言没有本机Unicode字符串,因此通常情况下将所有字符串保持为UTF-8,并冒冒险偶尔截断UTF-8序列并得到一个 ,除非你想要与mbstring搏斗.
$ data = pg_escape_string($ data); //转义字符串以插入数据库
$ data = strip_tags($ data); //从字符串中删除HTML和PHP标记
您不希望将此作为进入您的应用程序的消毒措施.保留所有字符串以纯文本形式处理它们,然后pg_escape_string()仅在前往Postgres查询的路上,而htmlspecialchars()仅在前往HTML页面的路上.
否则你会得到奇怪的东西,比如SQL转义出现在直接通过脚本到输出页面的变量上,而且没有人能够使用普通的小于字符.
作为消毒措施,您可以有用的一件事是删除字符串中的任何控制代码(除了换行符,\n,您可能想到的).
$data= preg_replace('/[\x00-\x09\x0B-\x19\x7F]/', '', $data);