Benutzer Diskussion:Picaro: Unterschied zwischen den Versionen

Zur Navigation springen Zur Suche springen
(→‎Straßen in Schwetzingen: Shellscript-Mechanisierung)
Zeile 9: Zeile 9:
:: Ich hab derweil mal aus einer Liste von PLZ|ORT|STR die ganzen Straßenlisten und auch Dummys für die Straßennamen angelegt. Schau mal rein unter http://rabe.uugrn.org/wiki/wiki.rhein-neckar.de/Projekte/PLZ/wiki/STR/. Ideen, Änderungswünsche? Bitte noch nicht die Dateien __REDIRECT/ und __DISAMBIG/ verwenden, da sich diese bei  ergänzten [[Postleitzahl]]en noch ändern können. Alle. --[[Benutzer:Rabe|Rabe]] 15:14, 5. Aug 2007 (CEST)
:: Ich hab derweil mal aus einer Liste von PLZ|ORT|STR die ganzen Straßenlisten und auch Dummys für die Straßennamen angelegt. Schau mal rein unter http://rabe.uugrn.org/wiki/wiki.rhein-neckar.de/Projekte/PLZ/wiki/STR/. Ideen, Änderungswünsche? Bitte noch nicht die Dateien __REDIRECT/ und __DISAMBIG/ verwenden, da sich diese bei  ergänzten [[Postleitzahl]]en noch ändern können. Alle. --[[Benutzer:Rabe|Rabe]] 15:14, 5. Aug 2007 (CEST)
:::Wie hast du die ganzen Straßen automatisch generiert? Wo haste die Abgefragt? --[[Benutzer:Picaro|Picaro]] 12:55, 7. Aug 2007 (CEST)
:::Wie hast du die ganzen Straßen automatisch generiert? Wo haste die Abgefragt? --[[Benutzer:Picaro|Picaro]] 12:55, 7. Aug 2007 (CEST)
:::: Ich habe verschiedene Quellen "gegeneinander laufen lassen". Ich hatte eine sehr zuverlässige Quelle für vollständige PLZ/Ort-Zuordnungen gefunden und eine Quelle für relativ gut benutzbare Straßenverzeichnisse bei verfügbaren PLZ. Letztlich war es nur eine Reihe von Shellscripten, die ein großes CSV-File generiert haben und eine Reihe von Scripten, die daraus dann Straßenverzeichnisse und Straßenartikel und eben auch die REDIR+DISAMBIG-Files generiert haben, eigentlich nichts anderes als eine große Schlacht aus Regular-Expressions mit grep, sed und bisschen awk ummantelt von /bin/sh-Scripten mit Konstrukten wie
< file.csv  grep "^foo" | sort | uniq | sed -e 'irgendwas' |
"while IFS='|' read PLZ ORT STR; do case in foo)); break; ... ; esac ; done |
sed -n -e 's,^\([^|]*\)|...|....|\(.*\)$,\2 (\3)|\1|\2,p' |
was | anderes > file2.csv
:::: Das ist allerdings in keinem Zustand, in dem ich das auf die Öffentlichkeit loslassen will, das könnte unangenehme Rückschlüsse auf meine Arbeitsweise ermöglichen (lies: Q&D-Hack) ;-)
:::: Nur soviel: Mechanisierten Zugriff auf Webseiten erledige ich idR mit "lynx -dump" oder "lynx -dump -source", je nachdem, ob sich der html-code oder die gerendete Ausgabe von lynx einfacher parsen lässt, manchmal verwende ich auch einfach wget, dem ich automatisch generierte URL-Listen hinwerfe. Automatisch generierter html-code ist idR relativ einfach im html-Source zu parsen.
:::: --[[Benutzer:Rabe|Rabe]] 14:57, 7. Aug 2007 (CEST)


== Admin ==
== Admin ==