| |||||||
Du magst keine Werbung? Wir auch nicht!
Einfach registrieren und die Werbung ist weg. Diese Nachricht sehen nur nicht registrierte Nutzer.
![]() |
| | LinkBack | Themen-Optionen | Ansicht |
| | #1 (permalink) |
| buttons ... ? Registriert seit: Oct 2002 Ort: an der sieg
Beiträge: 2.650
| spider/robots entwicklen?
hallo zusammen, wo muss ich mich einlesen, um eine spider/robots-software zu entwickeln? da der spider theoretisch unbegrenzt "unterwegs" sein soll, fällt php ja flach... hat da jemand eine oder mehrere ressourcen zum nachlesen...? vielen dank!
__________________ jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa) ------- zick-zack zu fuss bevorzugt ------- [STUFF] Zeiterfassung (PHP/MySQL) ------- [STUFF] comax (CMS) |
| | |
| | #2 (permalink) |
| flachzange Registriert seit: Jun 2003 Ort: berlin
Beiträge: 3.932
|
Wieso fällt PHP da flach? Grundlegend ist ein Spider ja keine Kunst, du musst nur einige Links rausparsen. Schwierig wird es dann auszuwägen wie man den Links folgt und dann noch die frage wie man die enormen Datenmengen unterbringt. usw. Am besten mal bei OS Projekten unter die Haube gucken.
__________________ |
| | |
| | #3 (permalink) |
| poke Registriert seit: Dec 2002 Ort: Iserlohn [NRW]
Beiträge: 2.304
|
hmm. allgemein wird es schwierig das ganze vernünftig hinzubekommen.. php würd natürlich auch gehen: Url öffnen mit fopen, dann den HTML Code analysieren, dinge herausfiltern (z.B. aus dem title tag mit preg_match) und tada ^^ |
| | |
| | #4 (permalink) |
| flachzange Registriert seit: Jun 2003 Ort: berlin
Beiträge: 3.932
|
Naja zum auslesen der Seiten würde ich eher cURL nutzen: http://de2.php.net/curl
__________________ |
| | |
| | #5 (permalink) |
| buttons ... ? Registriert seit: Oct 2002 Ort: an der sieg
Beiträge: 2.650
|
hmhm, also doch mal per php versuchen? ich würde vermuten, dass das früher oder später den server lahmlegt, wenn ich permanent neue seiten öffne und durchackere... ok. ich kann natürlich die seite nach jedem erfolgreichen zugriff refreshen, aber eigentlich soll das spider-programm ohne mein zutun laufen, ich will höchstens ein paar parameter bestimmen (phrasen) und dann den spider beliebig lange (stunden, tage, wochen) laufen lassen.
__________________ jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa) ------- zick-zack zu fuss bevorzugt ------- [STUFF] Zeiterfassung (PHP/MySQL) ------- [STUFF] comax (CMS) |
| | |
| | #6 (permalink) |
| schnarchnase Registriert seit: Jan 2002 Ort: konstanz
Beiträge: 2.953
|
dann schreib ein shell-skript, das mit wget --spider die seiten holt, mit einer pipe durch php oder ein sonstiges skript-file filtern, in die datenbank übernehmen etc, die links mit einem regulären ausdruck o.ä. parsen, und damit wget wieder füttern.
__________________ perlen vor die säue. |
| | |
| | #7 (permalink) | |
| buttons ... ? Registriert seit: Oct 2002 Ort: an der sieg
Beiträge: 2.650
| Zitat:
also kann ich die wget ergebniss direkt an ein php-skript übergeben? wo kann ich was darüber lesen? aber bitte jetzt nicht auf das linux manual (man) verweisen
__________________ jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa) ------- zick-zack zu fuss bevorzugt ------- [STUFF] Zeiterfassung (PHP/MySQL) ------- [STUFF] comax (CMS) | |
| | |
| | #9 (permalink) |
| schnarchnase Registriert seit: Jan 2002 Ort: konstanz
Beiträge: 2.953
|
naja, es macht ja wirklich keinen sinn - wenn man mit php anfängt, reguläre ausdrücke zu finden, und das massenweise, wird's sehr unlustig. ich persönlich würd's auch mit einem java-socket machen und das parsen auch java überlassen - c wäre wahrscheinlich noch besser, aber darauf hab ich nicht sooo die lust ... wenn es mit shell-mitteln gemacht werden soll. muss man ja irgendwo hin-verweisen... http://www.linux.org/docs/ldp/howto/...o-HOWTO-4.html also sowas wie wget --spider | php parsefile.php natürlich ist das nicht schnell, nicht effektiv und schon gar nicht effizient. aber es ist billig - weil man nur ein paar skriptzeilen braucht, um ein lauffähiges system aufzubauen.
__________________ perlen vor die säue. Geändert von rechtschreibfan (28-06-2005 um 15:26 Uhr) |
| | |
| | #10 (permalink) |
| buttons ... ? Registriert seit: Oct 2002 Ort: an der sieg
Beiträge: 2.650
|
vielen dank, das wird für den anfang reichen. da ich allerdings gerade am rande in python einsteige, lässt sich einiges sicher auch damit realisieren, oder?
__________________ jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa) ------- zick-zack zu fuss bevorzugt ------- [STUFF] Zeiterfassung (PHP/MySQL) ------- [STUFF] comax (CMS) |
| | |
| | #11 (permalink) |
| flachzange Registriert seit: Jun 2003 Ort: berlin
Beiträge: 3.932
|
Python ist auch ok, vermutlich sogar performanter für die Aufgabe. Allerdings musst du damit rechnen das die "Spiderei" performance ziehen wird, kommt halt drauf an wie aggresiv du Spidern willst. Und viel platz brauchst du auch, vor allem wenn du Inhalte indizierst.
__________________ |
| | |
![]() |
| Lesezeichen |
| Themen-Optionen | |
| Ansicht | |
| |