Zurück   Flashforum > Flash und Server > PHP und MySQL

Antwort
 
LinkBack Themen-Optionen Ansicht
Alt 28-06-2005, 09:53   #1 (permalink)
buttons ... ?
 
Benutzerbild von lingamyoni.de
 
Registriert seit: Oct 2002
Ort: an der sieg
Beiträge: 2.650
spider/robots entwicklen?

hallo zusammen, wo muss ich mich einlesen, um eine spider/robots-software zu entwickeln? da der spider theoretisch unbegrenzt "unterwegs" sein soll, fällt php ja flach... hat da jemand eine oder mehrere ressourcen zum nachlesen...?

vielen dank!
__________________

jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa)
-------
zick-zack zu fuss bevorzugt
-------
[STUFF] Zeiterfassung (PHP/MySQL)

-------
[STUFF] comax (CMS)
lingamyoni.de ist offline   Mit Zitat antworten
Alt 28-06-2005, 12:48   #2 (permalink)
flachzange
 
Benutzerbild von elias
 
Registriert seit: Jun 2003
Ort: berlin
Beiträge: 3.932
Wieso fällt PHP da flach?

Grundlegend ist ein Spider ja keine Kunst, du musst nur einige Links rausparsen.
Schwierig wird es dann auszuwägen wie man den Links folgt und dann noch die
frage wie man die enormen Datenmengen unterbringt. usw.

Am besten mal bei OS Projekten unter die Haube gucken.
__________________
elias ist offline   Mit Zitat antworten
Alt 28-06-2005, 13:14   #3 (permalink)
poke
 
Registriert seit: Dec 2002
Ort: Iserlohn [NRW]
Beiträge: 2.304
hmm. allgemein wird es schwierig das ganze vernünftig hinzubekommen..

php würd natürlich auch gehen:

Url öffnen mit fopen, dann den HTML Code analysieren, dinge herausfiltern (z.B. aus dem title tag mit preg_match) und tada ^^
pokepika ist offline   Mit Zitat antworten
Alt 28-06-2005, 13:29   #4 (permalink)
flachzange
 
Benutzerbild von elias
 
Registriert seit: Jun 2003
Ort: berlin
Beiträge: 3.932
Naja zum auslesen der Seiten würde ich eher cURL nutzen:
http://de2.php.net/curl
__________________
elias ist offline   Mit Zitat antworten
Alt 28-06-2005, 14:52   #5 (permalink)
buttons ... ?
 
Benutzerbild von lingamyoni.de
 
Registriert seit: Oct 2002
Ort: an der sieg
Beiträge: 2.650
hmhm, also doch mal per php versuchen? ich würde vermuten, dass das früher oder später den server lahmlegt, wenn ich permanent neue seiten öffne und durchackere... ok. ich kann natürlich die seite nach jedem erfolgreichen zugriff refreshen, aber eigentlich soll das spider-programm ohne mein zutun laufen, ich will höchstens ein paar parameter bestimmen (phrasen) und dann den spider beliebig lange (stunden, tage, wochen) laufen lassen.
__________________

jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa)
-------
zick-zack zu fuss bevorzugt
-------
[STUFF] Zeiterfassung (PHP/MySQL)

-------
[STUFF] comax (CMS)
lingamyoni.de ist offline   Mit Zitat antworten
Alt 28-06-2005, 15:03   #6 (permalink)
schnarchnase
 
Registriert seit: Jan 2002
Ort: konstanz
Beiträge: 2.953
dann schreib ein shell-skript, das mit wget --spider die seiten holt, mit einer pipe durch php oder ein sonstiges skript-file filtern, in die datenbank übernehmen etc, die links mit einem regulären ausdruck o.ä. parsen, und damit wget wieder füttern.
__________________

perlen vor die säue.
rechtschreibfan ist offline   Mit Zitat antworten
Alt 28-06-2005, 15:09   #7 (permalink)
buttons ... ?
 
Benutzerbild von lingamyoni.de
 
Registriert seit: Oct 2002
Ort: an der sieg
Beiträge: 2.650
Zitat:
mit einer pipe durch php oder ein sonstiges skript-file filtern,
ich kann mir so einiges vorstellen, was ich mit einer pipe mache, aber was ich in diesem kontext darunter verstehen muss, ist mir etwas schleierhaft ... also kann ich die wget ergebniss direkt an ein php-skript übergeben? wo kann ich was darüber lesen? aber bitte jetzt nicht auf das linux manual (man) verweisen
__________________

jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa)
-------
zick-zack zu fuss bevorzugt
-------
[STUFF] Zeiterfassung (PHP/MySQL)

-------
[STUFF] comax (CMS)
lingamyoni.de ist offline   Mit Zitat antworten
Alt 28-06-2005, 15:20   #8 (permalink)
pixel prostitute
 
Benutzerbild von bishop
 
Registriert seit: Mar 2004
Ort: berlin
Beiträge: 8.426
ich kann mich entsinnen, mal einen!! php-crawler gesichtet zu haben. der wurde aber wegen besagten gründen der wenig ressourcenfreundlichen nutzung des server wieder eingestellt.
bishop ist offline   Mit Zitat antworten
Alt 28-06-2005, 15:22   #9 (permalink)
schnarchnase
 
Registriert seit: Jan 2002
Ort: konstanz
Beiträge: 2.953
naja, es macht ja wirklich keinen sinn - wenn man mit php anfängt, reguläre ausdrücke zu finden, und das massenweise, wird's sehr unlustig. ich persönlich würd's auch mit einem java-socket machen und das parsen auch java überlassen - c wäre wahrscheinlich noch besser, aber darauf hab ich nicht sooo die lust ...


wenn es mit shell-mitteln gemacht werden soll. muss man ja irgendwo hin-verweisen...

http://www.linux.org/docs/ldp/howto/...o-HOWTO-4.html

also sowas wie

wget --spider | php parsefile.php

natürlich ist das nicht schnell, nicht effektiv und schon gar nicht effizient.
aber es ist billig - weil man nur ein paar skriptzeilen braucht, um ein lauffähiges system aufzubauen.
__________________

perlen vor die säue.

Geändert von rechtschreibfan (28-06-2005 um 15:26 Uhr)
rechtschreibfan ist offline   Mit Zitat antworten
Alt 28-06-2005, 16:03   #10 (permalink)
buttons ... ?
 
Benutzerbild von lingamyoni.de
 
Registriert seit: Oct 2002
Ort: an der sieg
Beiträge: 2.650
Lightbulb

vielen dank, das wird für den anfang reichen. da ich allerdings gerade am rande in python einsteige, lässt sich einiges sicher auch damit realisieren, oder?
__________________

jeder von uns ist mehrere, ist viele, ist ein übermaß an selbsten. (pessoa)
-------
zick-zack zu fuss bevorzugt
-------
[STUFF] Zeiterfassung (PHP/MySQL)

-------
[STUFF] comax (CMS)
lingamyoni.de ist offline   Mit Zitat antworten
Alt 28-06-2005, 17:58   #11 (permalink)
flachzange
 
Benutzerbild von elias
 
Registriert seit: Jun 2003
Ort: berlin
Beiträge: 3.932
Python ist auch ok, vermutlich sogar performanter für die Aufgabe. Allerdings
musst du damit rechnen das die "Spiderei" performance ziehen wird, kommt halt
drauf an wie aggresiv du Spidern willst. Und viel platz brauchst du auch, vor
allem wenn du Inhalte indizierst.
__________________
elias ist offline   Mit Zitat antworten
Antwort

Lesezeichen

Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks sind an
Pingbacks sind an
Refbacks sind an



Alle Zeitangaben in WEZ +1. Es ist jetzt 14:29 Uhr.

Domains, Webhosting & Vserver von Host Europe
Unterstützt das Flashforum!
Adobe User Group


Copyright ©1999 – 2012 Marc Thiele