Python regulaere Ausdruecke

hendr1k1 · 12. Januar 2010

Hallo,

bin gerade dabei ein Schulprojekt zu schreiben. Ich muss dabei aus einem Link z.b.

http://www.foobar.de/foo/bar/test.htm

den Dateinamen, sowie die top level Domain filtern.

Irgendwie stehe ich da gerade ein bisschen auf dem Schlauch....

Ich habe folgendes geschrieben:

import re
url = "http://www.foobar.de/foo/bar/test.htm"
__path = re.search(r".*[/](.*?)[/]", url) """Hier bekomme ich jetzt leider nur den Dateinamen weggeschnitten"""
__fileName = re.search(r".*[^/](.*?)", url) """Hier bekomme ich wieder die ganze URL ausgegeben"""

Greetz

P.S. nicht wegen der privaten Variablennamen wundern. Eigentlich befindet sich der Code in einer Klasse als Methode

fry2k · 12. Januar 2010

Hi,

python kann ich leider nicht, aber reg_exp ist eigentlich in den meisten Sprachen mehr oder weniger gleich / ähnlich.

Damit würde es mit php funktionieren. Vllt bringt dich das ja weiter.

PHP:

preg_match('/^http:\/\/[a-z]*[\.]{0,1}[a-z]*\.([a-z\.]*)[a-z\/]*\/([a-z\.]*)$/i', "http://www.foobar.co.uk/foo/bar/test.htm", $matches);

TLDs wie z.B. co.uk sind auch abgefangen, genauso wie eine URL ohne subdomain.

edit:
achja sub-subdomain sind auf die Schnelle nicht abgefangen xD

Suche

Python regulaere Ausdruecke

hendr1k1

Ensign

fry2k

Cadet 4th Year

Ähnliche Themen