Wörter so darstellen, dass sie nicht von Suchmaschinen gefunden werden?

ZetaZero

Lt. Commander
Registriert
Mai 2014
Beiträge
1.431
Gibt es eine Möglichkeit, von einer Internetseite einzelne Wörter für die Suchmaschine zu deaktivieren. Heißt, wenn man nach dem Wort sucht, welches deaktiviert wurde, kann die Seite unter dem Begriff auch nicht mehr mit Suchmaschinen gefunden werden?

Was mir bereits bekannt ist: Man kann das Wort als Bild/Grafik in der Seite einfügen. Ist aber besonders mitten in einem Text schwierig, auch wenn man ein responsives Layout nutzt.

Die zweite Möglichkeit wäre, alternative Zeichen zu nutzen oder die Schriftart leicht umzubauen, sodass man zwar das richtige Wort sieht, es aber in der Zeichensprache eigentlich etwas anderes bedeutet.

Ich persönlich finde beide Varianten nicht ideal. Gibt es einen leichteren Weg?

Ich hätte noch den Einfall, das Wort an mindestens einer Stelle auseinanderzuschreiben und das Leerzeichen dazwischen so klein wie Möglichlit darzustellen und den Umbruch zwischen beiden Worthälften zu deaktivieren. Da ich aber kein Webentwickler bin, weiß ich nicht, ob das auf diese Weise funktionieren könnte.
 
du könntest mit einer robots.txt Seiten von der Indizierung sperren, auch einzelne.
 
  • Gefällt mir
Reaktionen: Hayda Ministral, ZetaZero, BeBur und eine weitere Person
Man könnte viele Tags in die Wörter knallen

<b>W</b><span>o</span><i>r</i><div style="display:inline;">t</div>
 
Reepo schrieb:
du könntest mit einer robots.txt Seiten von der Indizierung sperren, auch einzelne.
Lassen das viele Betreiber machen? Denn ich habe bei einigen Seiten versucht, dass Impressum zu finden, aber Suchmaschinen haben es oft nicht gezeigt. Eine einzelne Seite wäre dann ja Beispielsweise nur das Impressum.
Ergänzung ()

Haggis schrieb:
Man könnte viele Tags in die Wörter knallen

<b>W</b><span>o</span><i>r</i><div style="display:inline;">t</div>
Das würde dann aber komisch aussehen.
 
ZetaZero schrieb:
Das würde dann aber komisch aussehen.
Naja, das Beispiel von Haggis ist natürlich nicht das was du dann wirklich machst. Du nimmst HTML-Elemente die "nichts" machen, also bspw. <span> und/oder <div style="display:inline;">

Die Idee gefällt mir ansich, aber ob sich Suchmaschinen davon beeindrucken lassen, weiß ich nicht. Es könnte sein, dass sie nur die Text Nodes berücksichtigen und z.B. Formattierung ignoriert wird.?
 
Einzelne Wörter gehen eher weniger, kann sogar sein dass dein span & inline-div Versuch einfach geparsed wird. Wenn ich ein Wort in einem h1 rot machen will mach ich das auch mit nem span im h1 und Google weiß das es eine Überschrift ist. Nach dem <h1>Porn<span style="color:orange;">Hub</span></h1>-Motto ;)

Mit Javascript kannst du vielleicht den dummen Bot austricksen, wenn "computerbase" nicht von Google gelesen werden soll kannst du z.B. "c0mpuuuuterb4se" im HTML anzeigen lassen und per Javascript im Browser vom User das ganze zurück-ersetzen.
Aber das fällt auch auf die Nase wenn Googles Headless-Chrome vorbeikommt, der kommt zwar weniger oft vorbei aber führt auch Javascript aus.

Das einfachste wäre ein Meta-Tag in deinem HTML der den Crawlern mitteilt das die Seite egal ist.
Die meisten CMS-Systeme bieten Optionen über die du eigene Meta-Tags setzen kannst (bei Wordpress z.B. gibts dafür Plugins).

Sonst kann man das auch direkt per Webserver sperren (falls du Zugriff auf Nginx/Apache hast).
In Nginx sähe das z.B. so aus, wenn im Useragent Google & Co zu finden sind bekommen die einfach einen 403 Error.
Code:
map $http_user_agent $limit_bots {
     default 0;
     ~*(google|bing|yandex|msnbot) 1;
     ~*(AltaVista|Googlebot|Slurp|BlackWidow|Bot|ChinaClaw|Custo|DISCo|Download|Demon|eCatch|EirGrabber|EmailSiphon|EmailWolf|SuperHTTP|Surfbot|WebWhacker) 1;
     ~*(Express|WebPictures|ExtractorPro|EyeNetIE|FlashGet|GetRight|GetWeb!|Go!Zilla|Go-Ahead-Got-It|GrabNet|Grafula|HMView|Go!Zilla|Go-Ahead-Got-It) 1;
     ~*(rafula|HMView|HTTrack|Stripper|Sucker|Indy|InterGET|Ninja|JetCar|Spider|larbin|LeechFTP|Downloader|tool|Navroad|NearSite|NetAnts|tAkeOut|WWWOFFLE) 1;
     ~*(GrabNet|NetSpider|Vampire|NetZIP|Octopus|Offline|PageGrabber|Foto|pavuk|pcBrowser|RealDownload|ReGet|SiteSnagger|SmartDownload|SuperBot|WebSpider) 1;
     ~*(Teleport|VoidEYE|Collector|WebAuto|WebCopier|WebFetch|WebGo|WebLeacher|WebReaper|WebSauger|eXtractor|Quester|WebStripper|WebZIP|Wget|Widow|Zeus) 1;
     ~*(Twengabot|htmlparser|libwww|Python|perl|urllib|scan|Curl|email|PycURL|Pyth|PyQ|WebCollector|WebCopy|webcraw) 1;
}

location /boese-bots.html {
  if ($limit_bots = 1) {
    return 403;
  }
}
 
Zuletzt bearbeitet:
Wird die robots.txt nicht einfach von vielen Bots/Crawlern ignoriert? Dann fällt das ja schonmal raus.
 
Diese Bots schließt man in der Regel manuell aus. Ein Bot, der sich nicht an Regeln hält, ist nutzlos.
 
Ich \^/ü1²de einfach £33+s⍴e@k ver\^/e!\!den. Dann siεht der ']['ext @uch viel c00lεr 4us. ☺
 
Eventuell gibt es auch die Möglichkeit anhand des UserAgents zu unterscheiden. Das geht aber nur solange sie die auch wirklich verwenden. (Dann würde robots.txt aber wahrscheinlich auch funktionieren)
Die anderen Ideen verhindern aber halt auch das Nutzer den Text einfach kopieren können. Je nach Website nimmt das auch viel von der Qualität und sorgt für Frust bei Nutzern (mich stört sowas zumindest immer ^^).
 
Zurück
Oben