Crawler macht Ärger und ich werde ihn nicht los.

Status
Für weitere Antworten geschlossen.

Belee

Lt. Commander
Registriert
Dez. 2006
Beiträge
1.518
Hallo

Dieser Crawler oder was auch immer das sein soll

Java/1.6.0_17

Macht viel Ärger "löscht mir Textdateien", hält sich auch nicht an die Angaben in der robots.txt.

Habe ihn in die htaccess auch schon gesperrt nur leider tarnt er sich als Firefox. Heisst, mal kommt er las JAVAxxxx mal als Firefox.
Die IP sperren nutzt auch nix da er immer mit einer neuen kommt. IP zeigt auf Frankreich. Wie kann ich das unterbinden also das der mir nicht ständig Textdateien löscht? kann man da Strafanzeige stellen oder sowas? denn anscheinend macht das
dieser Crwaler mit Absicht. Habe die Textdateien auch schon mal über Root geschoben, da aber manche indirekt auf der Seite über ein Script benutzt werden schafft er es auch das Script so durcheinander zu wirbel das dieses dann die Datein kaputt schreibt.
flock(); hilft auch nicht, weiß nicht mehr was ich machen soll.

Kann man sich gegen sowas absolut nicht schützen?

Die Frechheit: Er versucht als gesperrter Crawler Dateien zu lesen, und nach dem er die 10te 301 bekommt ist er auf einmal als Firefox da und liesst alles aus und guckt was er alles kaputt machen kann. Witz oder?
 
Ich weiß nicht ob es hilft, aber was mir so spontan immer einfällt ist:

Mcafee Stinger und Hijackthis.
 
Apache Webserver, OS ist Linux.

@DjNDM
Das frag mich mal, die Datein sind alle richtig CHMODed, ich habe auch schon den Hoster kontaktiert und er meint das alles ok ist von seiner Seite aus.

Ich sehe ich in der LOG folgendes...

Der Crawler startet das Scritpt welches 2 Dateien beschreibt als Java, merkt das es nicht geht da er 301 bekommt, doch er hat auch noch den kleinen Bruder Firefox dabei und schwupps ist die Textdatei leer und er macht das gleiche Spiel mit einem weiterem Script. Bis er alle durch hat, auch liesst er den ganzen Content der Seite. Ich weiß nicht wie der es schafft flock(); auszuhebeln.

Erst dachte ich das flock(); auf dem Server garnicht funktioniert doch mein Hoster sagt doch. Mir ist es ein Rätsel wie der das macht, und das macht er jede Nacht.

Hier so sieht das aus:

PHP:
//Er kommt als JAVA, und Firefox. Robotx.txt wird ignoriert.
 
91.121.204.98 - - [02/Aug/2011:00:41:26 +0200] "GET /robots.txt HTTP/1.1" 301 369 "-" "Java/1.6.0_17" www.domain de
91.121.204.98 - - [02/Aug/2011:00:41:26 +0200] "GET /robots.txt HTTP/1.1" 200 917 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" www.domain.de
 
//hier der Dateizugriff über Script
91.121.204.98 - - [02/Aug/2011:00:41:28 +0200] "GET /euro-flash HTTP/1.1" 301 369 "-" "Java/1.6.0_17" www.domain.de
91.121.204.98 - - [02/Aug/2011:00:41:28 +0200] "GET /euro-flash HTTP/1.1" 200 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" www.domain.de

euro-flash ist das Scritpt was gestartet wird "mit htaccess gekürzt".

Er versucht es also erst als JAVA, dann macht ers als Firefox. Schön oder?
Seit genau ca. 2 Wochen treibt der das so, immer nach dem selben Schema.

@er löscht nicht die Datei, sorry das war ne falsche ansage, er löscht den inhalt dieser, wie ist mir ein Rätsel. Denke aber das er das flock(); irgendwie aushebelt, vermutlich greift der nonstop darauf zu. Keine Ahnung.
 
Zuletzt bearbeitet:
@EinhornBigfoot, BadLuck

Es geht doch gar nicht um Viren oder ein Desktopsystem...

@Belee
Wie kann er Textdateien löschen? Da stimmt doch schon was von vorne hin nicht.
 
Ich nehme mal an, die Daten werden in Wirklichkeit vom "euro-flash"-Skript gelöscht, wenn der Crawler es ausführt, richtig?

Muß das Skript denn von außen erreichbar sein?
 
Ja muss, doch auch Google, MSN, Yahoo usw. greifen darauf zu und verursachen nie das Problem sondern immer nur dieser Java.
 
Was genau ist euro-flash denn für ein Skript?

Zeitlich liegen die Aufrufe als "Java" und als "Mozilla" ja gleich. Da würde ich davon ausgehen, dass er das Ergebnis des jeweils anderen nicht abwartet sondern ohnehin beide Aufrufe macht.
 
Der macht was er will und wo er will, das ist das Problem. Ich habe jetzt mal den Hoster darüber informiert, er will sich das jetzt selbst mal genau anschauen denn auch andere Leute auf dem Webspace haben sich schon über ähnliche Probleme mit diesem Crawler beschwert.

Es ist wie gesagt immer dieser, der ignoriert einfach alles.
 
Belee schrieb:
Der macht was er will und wo er will, das ist das Problem. Ich habe jetzt mal den Hoster darüber informiert, er will sich das jetzt selbst mal genau anschauen denn auch andere Leute auf dem Webspace haben sich schon über ähnliche Probleme mit diesem Crawler beschwert.

Es ist wie gesagt immer dieser, der ignoriert einfach alles.

Mag ja sein, dass er einfach die IP-Bereiche in der Nähe durchgeht.

Aber das eigentliche Problem ist doch, dass dein Skript scheinbar bei bestimmten Aufrufen zu Datenverlust führt. Wenn du die Ursache dafür findest, ist das Problem nachhaltig behoben.

Es kann ja sonst schließlich jederzeit wieder jemand auftauchen, der es genau so tut.
 
Das Script ist 8 Zeilen lang und ich habe es auch schon jemanden gezeigt der richtig Ahnung hat und der kann da nix feststellen bzw. ändern. Wie gesagt, auf diese Datei greifen in der Nacht min. 30 Crawler zu, auch gleichzeitig, und nie gab es Probleme. Nur seit etwa 2 Wochen mit diesem Java. Ich habe es jetzt aber nochmal geändert, jetzt arbeite ich mit noch einer zusätzlichen LOCK Datei, mal sehen...wenn der das auch zerschießt dann weiß ich nicht mehr. @ice.. würde jetzt sagen...selbst schuld, nimm Datenbank :D
 
Nunja, ein Crawler (ob gut- oder bösartig) ist auch nur ein automatisierter "Besucher". Und wenn dieser Crawler es schafft, dein "euro-flash"-Script so auszuführen, dass es Textdateien leert, dann schafft das ein Benutzer auch.

Poste doch mal den Code von diesem "euro-flash"-Script. ;)

Du könntest eigentlich auch über das Script verhindern können, dass besagter Crawler die Textdateien löscht, ausser ein nicht authentifizierter Benutzer sollte dies auch können. Ich würde dir raten einen Login vor das Script zu schieben, der den Benutzer authentifiziert und falls Benutzername & Kennwort richtig sind zulässt, dass die Textdateien gelöscht werden können, und sonst nicht. :)

Ausserdem würde ich nicht gegen diesen Crawler mit User-Agent-Sperre oder ähnlichem vorgehen, da er sich auch als Google-Bot tarnen könnte, und somit auch der echte Google-Bot dann keinen Zugriff mehr auf deine Seite hat.

Freundliche Grüsse,
Spartan-117
 
@spartan..
Ich poste hier derartige Scripte nicht mehr. Das hat jetzt auch nichts mit dir zutun. Ich denke du verstehst was ich meine. Falls nicht bin ich via pn für dich immer da.
 
Hmm, aber ohne zu verstehen was in dem Script getan wird, können wir dir auch nicht helfen. :(

Vielleicht könntest du uns auch einfach erklären was besagtes Script macht? :)

Freundliche Grüsse,
Spartan-117
 
Wohl ein Programmierfehler. Dass du ständig irgendwelche obskuren Bots dafür verantwortlich machst kann ich nicht nachvollziehen. Jeder normale Nutzer könnte das gleiche bewirken. Illegal ist das auch nicht solange die Zugriffe kein DoS sind. Es bringt dir also auch nichts eine Anzeige zu erstatten. Du solltest lieber das eigentliche Problem lösen!
 
Wenn der Webuser Dateien löschen kann wo er lustig ist, stimmt irgendwas vorne und hinten nicht.
Ich hoffe doch mal stark, der Apache läuft nicht als Root? Und die Files gehören nicht dem Apache? Welche Apache-Version? Ein Chroot hast du vermutlich auch nicht aufgesetzt?
 
Belee schrieb:
@spartan..
Ich poste hier derartige Scripte nicht mehr. Das hat jetzt auch nichts mit dir zutun. Ich denke du verstehst was ich meine. Falls nicht bin ich via pn für dich immer da.

dann frag hier nicht nach Hilfe :rolleyes:
Ein HTTP-Aufruf kann eigentlich keinen Inhalt löschen, wenn doch stimmt mit dem Webserver etwas nicht oder deinem Script, ich tippe auf letzteres.

IceMatrix schrieb:
Wohl ein Programmierfehler. Dass du ständig irgendwelche obskuren Bots dafür verantwortlich machst kann ich nicht nachvollziehen. Jeder normale Nutzer könnte das gleiche bewirken. Illegal ist das auch nicht solange die Zugriffe kein DoS sind. Es bringt dir also auch nichts eine Anzeige zu erstatten. Du solltest lieber das eigentliche Problem lösen!
100% ACK
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben