21.072
Bearbeitungen
Das Wiki entwickelt sich durch Deine Mitarbeit weiter. Eine Spende sichert den technischen Betrieb und den Erhalt des Wissens.
Picaro (Diskussion | Beiträge) |
Rabe (Diskussion | Beiträge) (→Straßen in Schwetzingen: Shellscript-Mechanisierung) |
||
Zeile 9: | Zeile 9: | ||
:: Ich hab derweil mal aus einer Liste von PLZ|ORT|STR die ganzen Straßenlisten und auch Dummys für die Straßennamen angelegt. Schau mal rein unter http://rabe.uugrn.org/wiki/wiki.rhein-neckar.de/Projekte/PLZ/wiki/STR/. Ideen, Änderungswünsche? Bitte noch nicht die Dateien __REDIRECT/ und __DISAMBIG/ verwenden, da sich diese bei ergänzten [[Postleitzahl]]en noch ändern können. Alle. --[[Benutzer:Rabe|Rabe]] 15:14, 5. Aug 2007 (CEST) | :: Ich hab derweil mal aus einer Liste von PLZ|ORT|STR die ganzen Straßenlisten und auch Dummys für die Straßennamen angelegt. Schau mal rein unter http://rabe.uugrn.org/wiki/wiki.rhein-neckar.de/Projekte/PLZ/wiki/STR/. Ideen, Änderungswünsche? Bitte noch nicht die Dateien __REDIRECT/ und __DISAMBIG/ verwenden, da sich diese bei ergänzten [[Postleitzahl]]en noch ändern können. Alle. --[[Benutzer:Rabe|Rabe]] 15:14, 5. Aug 2007 (CEST) | ||
:::Wie hast du die ganzen Straßen automatisch generiert? Wo haste die Abgefragt? --[[Benutzer:Picaro|Picaro]] 12:55, 7. Aug 2007 (CEST) | :::Wie hast du die ganzen Straßen automatisch generiert? Wo haste die Abgefragt? --[[Benutzer:Picaro|Picaro]] 12:55, 7. Aug 2007 (CEST) | ||
:::: Ich habe verschiedene Quellen "gegeneinander laufen lassen". Ich hatte eine sehr zuverlässige Quelle für vollständige PLZ/Ort-Zuordnungen gefunden und eine Quelle für relativ gut benutzbare Straßenverzeichnisse bei verfügbaren PLZ. Letztlich war es nur eine Reihe von Shellscripten, die ein großes CSV-File generiert haben und eine Reihe von Scripten, die daraus dann Straßenverzeichnisse und Straßenartikel und eben auch die REDIR+DISAMBIG-Files generiert haben, eigentlich nichts anderes als eine große Schlacht aus Regular-Expressions mit grep, sed und bisschen awk ummantelt von /bin/sh-Scripten mit Konstrukten wie | |||
< file.csv grep "^foo" | sort | uniq | sed -e 'irgendwas' | | |||
"while IFS='|' read PLZ ORT STR; do case in foo)); break; ... ; esac ; done | | |||
sed -n -e 's,^\([^|]*\)|...|....|\(.*\)$,\2 (\3)|\1|\2,p' | | |||
was | anderes > file2.csv | |||
:::: Das ist allerdings in keinem Zustand, in dem ich das auf die Öffentlichkeit loslassen will, das könnte unangenehme Rückschlüsse auf meine Arbeitsweise ermöglichen (lies: Q&D-Hack) ;-) | |||
:::: Nur soviel: Mechanisierten Zugriff auf Webseiten erledige ich idR mit "lynx -dump" oder "lynx -dump -source", je nachdem, ob sich der html-code oder die gerendete Ausgabe von lynx einfacher parsen lässt, manchmal verwende ich auch einfach wget, dem ich automatisch generierte URL-Listen hinwerfe. Automatisch generierter html-code ist idR relativ einfach im html-Source zu parsen. | |||
:::: --[[Benutzer:Rabe|Rabe]] 14:57, 7. Aug 2007 (CEST) | |||
== Admin == | == Admin == |
Bearbeitungen