Benutzer Diskussion:Picaro: Unterschied zwischen den Versionen

Zeile 9:

:: Ich hab derweil mal aus einer Liste von PLZ|ORT|STR die ganzen Straßenlisten und auch Dummys für die Straßennamen angelegt. Schau mal rein unter http://rabe.uugrn.org/wiki/wiki.rhein-neckar.de/Projekte/PLZ/wiki/STR/. Ideen, Änderungswünsche? Bitte noch nicht die Dateien __REDIRECT/ und __DISAMBIG/ verwenden, da sich diese bei ergänzten [[Postleitzahl]]en noch ändern können. Alle. --[[Benutzer:Rabe|Rabe]] 15:14, 5. Aug 2007 (CEST)

:::Wie hast du die ganzen Straßen automatisch generiert? Wo haste die Abgefragt? --[[Benutzer:Picaro|Picaro]] 12:55, 7. Aug 2007 (CEST)

:::: Ich habe verschiedene Quellen "gegeneinander laufen lassen". Ich hatte eine sehr zuverlässige Quelle für vollständige PLZ/Ort-Zuordnungen gefunden und eine Quelle für relativ gut benutzbare Straßenverzeichnisse bei verfügbaren PLZ. Letztlich war es nur eine Reihe von Shellscripten, die ein großes CSV-File generiert haben und eine Reihe von Scripten, die daraus dann Straßenverzeichnisse und Straßenartikel und eben auch die REDIR+DISAMBIG-Files generiert haben, eigentlich nichts anderes als eine große Schlacht aus Regular-Expressions mit grep, sed und bisschen awk ummantelt von /bin/sh-Scripten mit Konstrukten wie

< file.csv grep "^foo" | sort | uniq | sed -e 'irgendwas' |

"while IFS='|' read PLZ ORT STR; do case in foo)); break; ... ; esac ; done |

sed -n -e 's,^$[^|]*$|...|....|$.*$$,\2 (\3)|\1|\2,p' |

was | anderes > file2.csv

:::: Das ist allerdings in keinem Zustand, in dem ich das auf die Öffentlichkeit loslassen will, das könnte unangenehme Rückschlüsse auf meine Arbeitsweise ermöglichen (lies: Q&D-Hack) ;-)

:::: Nur soviel: Mechanisierten Zugriff auf Webseiten erledige ich idR mit "lynx -dump" oder "lynx -dump -source", je nachdem, ob sich der html-code oder die gerendete Ausgabe von lynx einfacher parsen lässt, manchmal verwende ich auch einfach wget, dem ich automatisch generierte URL-Listen hinwerfe. Automatisch generierter html-code ist idR relativ einfach im html-Source zu parsen.

:::: --[[Benutzer:Rabe|Rabe]] 14:57, 7. Aug 2007 (CEST)

== Admin ==

Benutzer Diskussion:Picaro: Unterschied zwischen den Versionen

Navigationsmenü

Suche