leichte Instabilität dieser Site

Im Moment hab ich ein paar kleinere Stabilitätsprobleme - der Serverprozess scheint Filedeskriptoren zu "verlieren" - irgendwann gehen die dann aus und der SCGI-Server wird gekillt. Im Moment hab ich noch keine Ahnung warum das passiert - andere Sites mit der gleichen Serversoftware (FLUP - ein SCGI/FCGI Server für Python) haben das Problem nicht. Jetzt läuft erstmal ein regelmäßiger Cronjob, der in der Prozesstabelle nachguckt, ob mein Prozess noch läuft - und wenn nicht, diesen einfach nachstartet. Und als nächstes werd ich mir wohl ein Debugging-Szenario einfallen lassen müssen, mit dem ich das irgendwie eingekreist bekomme ...

tags: Sysadmin

hugo Dec. 19, 2005, 7:51 p.m.

Ich habs warscheinlich gefunden - in meinem SCGI Script war ein Bug bei Verwendung von Python 2.3. Mal sehen ob das Problem jetzt weg ist.

Christian Dec. 20, 2005, 12:24 p.m.

Kennst Du supervise aus dem daemontools-Paket von Dan Bernstein?
Ich lass eigentlich alle Services, die ich gerne neugestartet hätte, falls sie denn
mal abstürzen, per supervise "überwachen" (z.B. dhcpd kann nervig sein, wenn ausgefallen).



hugo Dec. 20, 2005, 1:35 p.m.

Klar kenne ich es. Benutze ich für viele Dienste auch - aber hier hätte es nur ein recht banales Problem gelöst, das genausogut mit einem einfachen Cronjob gelöst werden kann (nämlich das neu starten). Das eigentliche Problem war ja das leaking der Deskriptoren, deshalb brauchte ich z.B. ein vernünftiges Messaging beim Restart, um mir die zu der Zeit geloggten Inhalte des syslog anzugucken. Dadurch hab ich das dann - dank grsecurity - recht fix gefunden.