Kurzfristige technische Probleme

24 Nov

Wir haben momentan ein paar Probleme mit unserer Infrastruktur, insbesondere mit den DNS-Servern im Netzwerk. Wir arbeiten daran, aber es kann ein bisschen dauern. Bitte entschuldigt die Unannehmlichkeiten. Ich werde den Post ergänzen sobald ich mehr weiß und das Problem behoben habe.

Edit: Das Problem ist für den Moment behoben, das Grundproblem besteht aber noch.

Wie sich herausgestellt hat bestand das Problem in der Art und Weise, wie Android mit DNS-Servern umgeht: Es benutzt aktiv nur 3 und ordnet in der gesamten Liste IPv6-Server nach oben. Das heißt bei 3 Gateways, die allesamt sich als DNS via IPv6 announcen plus die 3 IPv4-Server, die per DHCP an das Gerät geschickt werden, wurden die IPv6-Server bevorzugt und da es drei waren auch nur die genutzt. (Kurzer Hinweis: Batman verteilt die DHCP-Anfragen an einen der Gateway-Server, daher bekommt der Client nur eine Antwort von einem DHCP-Server. IPv6 arbeitet aber mit Announcements der Präfixe und Gateway- und DNS-Server, daher empfangen Clients hier die Pakete von allen Gateways)

Nun kommen wir zu einem anderen Problem, das manchen vielleicht schon aufgefallen ist: Netzinterne IPv6-Kommunikation funktioniert eigentlich nicht so richtig. Meine Vermutung ist, dass das ein Problem mit der auf den Gateway-Servern eingesetzten dnsmasq-Config ist. Konkret besteht das Problem wohl darin, dass der Präfix wohl nicht richtig announct wird. Linux merkt sich das und weigert sich, Pakete für diesen Präfix zu verteilen. Normalerweise ist das kein Problem, da ja IPv4 funktioniert, aber wenn Android dann hingeht und nur über IPv6 versucht, die DNS-Server zu erreichen, funktioniert das nicht.

Bisher war das Problem nie aufgetreten, da in dem alten Netz vor dem großen Update eine dnsmasq-Version eingesetzt wurde, die gar keine DNS-Server announct hat (ein hoch auf Debian 7) und danach waren in dem neuen Netz erstmal nur zwei Gateways aktiv. Ich habe aber letzte Woche ein paar Experimente durchgeführt mit der Inter-Gateway-VPN-Verbindung, die Gateway 4 (und nur der) durch regelmäßiges Abstürzen quittiert hat. Als kurzfristige Lösung hatte ich dann GW1 vom alten Netz neu aufgesetzt und GW4 temporär abgeschaltet. Es hat sich dann recht schnell gezeigt, dass die Lösung neue Variante des Inter-GW-VPN nicht sinnvoll funktioniert, weshalb wir sie reverted haben. Letzte Woche Donnerstag Abend habe ich das dann gemacht und dachte mir, schauen wir mal, ob GW4 jetzt wieder ging. Ab Donnerstag Abend letzter Woche bis Donnerstag mittag dieser Woche hatten wir also 3 Gateway-Server am laufen, die Android lahm gelegt haben. Gestern hat Marvin mir den Tipp mit den 3 DNS-Servern gegeben und ich habe so bald ich konnte GW4 abgestellt. War okay, wir wollten die VM ja sowieso zum Ende des Monats auslaufen lassen. GW1 und 2 sind deutlich stärker als die alten GW3 und 4.

Es sei dazu gesagt, dass die aktuelle Lösung nur ein Hotfix ist. Sobald wir wieder einen dritten Gateway anschalten wird das Problem wieder auftauchen. Demnächst müssen wir also von dnsmasq als DHCP-, DNS- und RA-Server wegmigrieren, eine Sache vor der ich mich seit nunmehr relativ genau 11 Monaten schon fürchte 😀

Das war also eine etwas ausführlichere Version der Ereignisse und technischen Hintergründe. Ich habe keine Ahnung wieso Android so agiert wie es das tut.

Vielen Dank also an Madonius für seine Hilfe bei der Fehlersuche, Marvin fürs Fehler finden und Wolfgang, Gerhard, Roy, @Cihan05 und allen die ich vergessen habe fürs testen! 🙂