Probleme beim Hoodwechsel

Adrian Schmutzler mail at adrianschmutzler.de
Mo Aug 20 12:59:05 CEST 2018


Hallo,

Firmware-Analyse:

Die offizielle Firmware macht bei allen Versionen Probleme. Hier ist das Gerüst LEDE 17.01 mit Batman 2016.5.

Ältere FWs als adsc9_20180517 sind nicht einzeln besprochen, da sie sicher auch Probleme machen.

Meine Firmware adsc9_20180517 hat teilweise Ausfälle:
6 von 37 Routern mit Reboot = 16 %
openwrt/routing: openwrt-18.06 vom 2018-05-17
Batman 2018.1

adsc9_20180628 hat nur beim Testrouter einen Ausfall:
Die 5 fremden Router waren alle gut.
Mein Testrouter ist abgekackt, der ist aber scheinbar komisch.
Wäre der Ausfall "echt", hätten wir wieder 16 %. Die Stichprobe ist aber halt auch klein.
Openwrt/routing: openwrt-18.06 vom 2018-06-16 (openwrt-18.06.0-rc1)
Batman 2018.1
Kernel 4.9.109

adsc9_20180722 Testrouter stabil:
Genau ein Router, der war normal.
Openwrt: openwrt-18.06 von 2018-07-19
Routing: master vom 2018-07-21
Batman 2018.2 (!)
Kernel 4.9.111

adsc9_20180806 Stabil:
Ein Router im Testmesh, aber 8 Router bei der Umstellung in der Fränkischen Schweiz.
Ausfälle: Null
Openwrt: openwrt-18.06 von 2018-08-06
Routing: Keine Änderung zu 20180722
Batman 2018.2
Kernel 4.9.117

Ergebnis:
Die generelle Umstellung von LEDE 17.01 auf OpenWrt 18.06 behebt das Problem nicht.
Eine mögliche Ursache für das bessere Abschneiden meiner neuesten Firmware könnte Batman 2018.2 sein. Dabei wurde auch das alfred-Start-Skript umgebaut, was die geringere Anzahl der Alfred-Ausfälle erklären könnte.
Batman als Ursache könnte auch erklären, dass nur die Mesh-Router Probleme machen, nicht die Uplinks. Und Batman als Kernelmodul kann vll. auch einen Neustart auslösen, wenn es kaputt geht?

Vielleicht steckt auch eine Treiber-Änderung in OpenWrt, die ich beim Ändern der OpenWrt-Version zwischen Juni und August mitgenommen habe.
Spezielle relevante Änderungen von mir in der FW gibt es keine, die nicht auch in 20180802 wären.

In jedem Fall ist die Stichprobe für die funktionierenden Versionen im Moment noch klein.

Als nächstes müsste man jetzt versuchen, ob man die adsc9_20180806 nicht doch irgendwie kaputt kriegt, um Statistik-Effekte auszuschließen. Oder jemand findet was in den CHangelogs von Openwrt oder Batman, ist aber schwer, wenn man nicht weiß, wonach man sucht.

Ein weiteres Testszenario wäre die offizielle Firmware mit routing-master (Batman 2018.2). Kein Ahnung, ob das baut. Hier muss man allerdings von Hand ein Symbol setzen, da das Debugfs deaktiviert wurde:
https://github.com/adrianschmutzler/fff-firmware/commit/5e20980ac6bbb3049e9969aae18daef8504f0efc

Beste Grüße

Adrian


> -----Original Message-----
> From: Christian Dresel [mailto:fff at chrisi01.de]
> Sent: Montag, 20. August 2018 11:42
> To: Adrian Schmutzler <mail at adrianschmutzler.de>
> Cc: Mailingliste franken-dev <franken-dev at freifunk.net>
> Subject: Probleme beim Hoodwechsel
> 
> Hallo Adrian
> Hallo @dev
> 
> Ich hab um 10Uhr 2 weitere Hoods angelegt und mal genau mitgeschrieben
> was passiert ist. Hier mein Protokoll:
> 
> betroffene Routeranzahl bei Umstellung: ca. 79 Router
> problemlos umgezogen: ca. 66 Router
> Probleme beim Umzug: ca. 15 Router
> (ich hab leider keine ganz exakten Zahlen bzw. hab die Zahlen aus
> verschiedenen Quellen, daher passt es auch nicht exakt wenn man sie
> einfach addiert)
> 
> Adrians Testnetz:
> Uplink hat sofort umgezogen problemlos
> nach 10-15min da jeweils ohne reboot (wie erwartet):
> https://monitoring.freifunk-franken.de/routers/4382
> https://monitoring.freifunk-franken.de/routers/5730
> nach 20-25min zurück aber anscheinend ohne Alfred (Monitoring offline,
> im Batman vorhanden):
> https://monitoring.freifunk-franken.de/routers/5670
> 
> folgende Router gingen nach 20min im Monitoring auf offline, keine
> Funktionsprüfung gemacht (Adrians Testnetz hab ich hier außen vor gelassen):
> https://monitoring.freifunk-franken.de/routers/4464
> https://monitoring.freifunk-franken.de/routers/4451
> https://monitoring.freifunk-franken.de/routers/4317
> https://monitoring.freifunk-franken.de/routers/4479
> https://monitoring.freifunk-franken.de/routers/4447
> https://monitoring.freifunk-franken.de/routers/5127
> https://monitoring.freifunk-franken.de/routers/3296
> https://monitoring.freifunk-franken.de/routers/5822
> https://monitoring.freifunk-franken.de/routers/4456
> https://monitoring.freifunk-franken.de/routers/3428
> https://monitoring.freifunk-franken.de/routers/5881
> https://monitoring.freifunk-franken.de/routers/2646
> (nach 35min mal überflogen, ich hab keinen gefunden der im Batman da war
> allerdings nicht alle geprüft)
> (es sind div. Firmwareversionen dabei auch das offizielle Release und
> nicht nur Adrian Versionen)
> 
> kam nach 40min zurück, laut Monitoring kurze Uptime -> Reboot:
> https://monitoring.freifunk-franken.de/routers/3428
> 
> Aus Adrians Testnetz:
> kam nach 50min auch im Monitoring online und hat 2min Uptime -> Reboot:
> https://monitoring.freifunk-franken.de/routers/5670 (war aber nur 1x ein
> Datensatz, danach ging er wieder verloren -> spinnt total führe ich
> nicht mehr weiter auf)
> 
> kam nach 55min zurück mit 6h Uptime -> kein reboot?:
> https://monitoring.freifunk-franken.de/routers/4479
> 
> kamn nach 55min zurück mit 3min Uptime -> reboot:
> https://monitoring.freifunk-franken.de/routers/4447
> https://monitoring.freifunk-franken.de/routers/2646
> 
> kam nach 60min zurück, 6h Uptime -> kein reboot?:
> https://monitoring.freifunk-franken.de/routers/4456
> 
> kam nach 60min zurück mit 4min Uptime -> reboot:
> https://monitoring.freifunk-franken.de/routers/5881
> 
> kam nach 65min zurück mit 1min Uptime -> reboot:
> https://monitoring.freifunk-franken.de/routers/4464
> 
> kam nach 70min zurück mit 2min Uptime -> reboot:
> https://monitoring.freifunk-franken.de/routers/4451
> 
> kam nach 75min zurück mit 4min Uptime -> reboot (Adrian Testnetz!!):
> https://monitoring.freifunk-franken.de/routers/4556
> 
> kam nach 80min zurück mit 4min Uptime -> reboot:
> https://monitoring.freifunk-franken.de/routers/4317
> 
> Áktuell fehlen noch 3 Router aus der Hood:
> https://monitoring.freifunk-franken.de/routers/5822
> https://monitoring.freifunk-franken.de/routers/3296
> https://monitoring.freifunk-franken.de/routers/5127
> + 2 aus Adrians Testnetz:
> https://monitoring.freifunk-franken.de/routers/5548
> https://monitoring.freifunk-franken.de/routers/5535
> 
> ich gehe mal stark davon aus, das diese ebenfalls zurück kehren werden
> nur noch ne Stunde oder 2 brauchen.
> 
> mfg
> 
> Christian
> 
> 
> 
> 
> 




Mehr Informationen über die Mailingliste franken-dev