(交叉发布到lwt github问题)
我已经将我的用法归结为此代码示例,这将泄漏文件描述符.
说你有:
#require "lwt.unix" open Lwt.Infix let echo ic oc = Lwt_io.(write_chars oc (read_chars ic)) let program = let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in let other_addr = Unix.(ADDR_INET (inet_addr_loopback, 2001)) in let server = Lwt_io.establish_server server_address begin fun (tcp_ic, tcp_oc) -> Lwt_io.with_connection other_addr begin fun (nc_ic, nc_oc) -> Lwt_io.printl "Created connection" >>= fun () -> echo tcp_ic nc_oc <&> echo nc_ic tcp_oc >>= fun () -> Lwt_io.printl "finished" end |> Lwt.ignore_result end in fst (Lwt.wait ()) let () = Lwt_main.run program
然后你创建一个简单的服务器:
nc -l 2001
然后让我们启动OCaml代码
utop example.ml
然后打开一个客户端
nc localhost 2000 blah blah ^c
然后我们看到使用lsof查看端口2000的连接
ocamlrun 71109 Edgar 6u IPv4 0x7ff3e309cb80aead 0t0 TCP 127.0.0.1:callbook (LISTEN) ocamlrun 71109 Edgar 7u IPv4 0x7ff3e309c9dc8ead 0t0 TCP 127.0.0.1:callbook->127.0.0.1:54872 (CLOSE_WAIT)
实际上,对于每种用法nc localhost 2000
,我们将从CLOSE_WAIT
lsof使用中获得剩余记录.
最终这将导致系统耗尽文件描述符,这将令人烦恼地不会使程序崩溃,但会导致Lwt挂起.
我不知道我做错了什么或者这是一个真正的错误,无论如何这对我来说是一个严重的错误,我在10小时内用完文件描述符......
编辑:在我看来,问题是连接的一侧是关闭但另一侧不是,我会认为with_connection
应该清理/关闭任何一方关闭,即时nc_ic
或nc_oc
关闭.
编辑II:我已尝试用手动关闭描述符的每一种方式Lwt_io.close
,但我仍然有CLOSE_WAIT消息.
编辑III:甚至用于Lwt_unix.close
给出with_connection的可选fd
参数的原始fd 以及类似的错误结果.
编辑IV:最阴险的是如果我使用Lwt_daemon.daemonize
,那么这个问题似乎消失了
首先,不清楚为什么使用join <&>
而不是选择>
.我想如果双方中的一方想关闭它,应该关闭连接.
关于CLOSE_WAIT
:它是从utop
服务器到nc
客户端的半封闭连接.
TCP连接由两个半连接组成,它们是独立关闭的.从nc
客户端到utop
服务器的连接nc
由于关闭而关闭Ctrl-C
.但是您必须通过关闭输出流来显式关闭服务器端的相反连接.我不确定为什么Lwt.establish_server
不自动关闭它.可能,这是一个设计问题.
这适用于CentOS 7:
Lwt_io.printl "Created connection" >>= fun () -> echo tcp_ic nc_oc > echo nc_ic tcp_oc >>= fun () -> Lwt_io.close tcp_oc >>= fun () -> Lwt_io.printl "finished"
此外,还有一个简化的代码段来重现此问题:
#require "lwt.unix" let program = let server_address = Unix.(ADDR_INET (inet_addr_loopback, 2000)) in let _server = Lwt_io.establish_server server_address begin fun (ic, oc) -> (* Lwt_io.close oc |> Lwt.ignore_result; *) () end in fst (Lwt.wait ()) let () = Lwt_main.run program
运行nc localhost 2000
几次以获得CLOSE_WAIT
状态连接.取消注释代码以解决问题.