我有以下几行:
"14:48 say;0ed673079715c343281355c2a1fde843;2;laka;hello ;)"
我使用一个简单的正则表达式解析这个:
if($line =~ /(\d+:\d+)\ssay;(.*);(.*);(.*);(.*)/) { my($ts, $hash, $pid, $handle, $quote) = ($1, $2, $3, $4, $5); }
但是; 最后搞砸了,我不知道为什么.贪婪的操作员不应该处理"一切"吗?
贪婪的运算符试图抓住尽可能多的东西,仍然匹配字符串.发生的事情是第一个(在"说"之后)抓住"0ed673079715c343281355c2a1fde843; 2",第二个采用"laka",第三个发现"你好"而第四个匹配括号.
你需要做的是让除了最后一个之外的所有人都非贪婪,所以他们尽量少抓住并仍然匹配字符串:
(\d+:\d+)\ssay;(.*?);(.*?);(.*?);(.*)
(\d+:\d+)\ssay;([^;]*);([^;]*);([^;]*);(.*)
应该工作得更好
虽然正则表达式很容易做到这一点,但我不确定它是最直接的方法.它可能是最短的,但实际上并不能使它成为最可维护的.
相反,我建议这样的事情:
$x="14:48 say;0ed673079715c343281355c2a1fde843;2;laka;hello ;)"; if (($ts,$rest) = $x =~ /(\d+:\d+)\s+(.*)/) { my($command,$hash,$pid,$handle,$quote) = split /;/, $rest, 5; print join ",", map { "[$_]" } $ts,$command,$hash,$pid,$handle,$quote }
这导致:
[14:48],[say],[0ed673079715c343281355c2a1fde843],[2],[laka],[hello ;)]
我认为这只是更具可读性.不仅如此,我认为它也更容易调试和维护,因为如果人类用笔和纸尝试同样的事情,这更接近于你将如何做到这一点.将字符串分解成块,然后您可以更轻松地解析 - 让计算机完全按照您的方式执行操作.当需要进行修改时,我认为这个会更好.因人而异.