Java Daten mit Java von Webseite ziehen

Bright0001 · 21. Februar 2017

Moin Leute,

ich bastel momentan an einer Analysesoftware die Kurse auswertet und würde dafür gerne Daten von dieser Webseite ziehen. Um das zu bewerkstelligen wollte ich eigentlich die Webseite in den Puffer laden und dann über Stringmanipulation die einzelnen Werte extrahieren, was jedoch nicht so recht klappen will. Die gelieferte HTML-Seite unterscheidet sich von der angezeigten/von Hand gespeicherten und enthält keinerlei Werte.

Ich suche jetzt nach einer Möglichkeit entweder die volle Seite zu erhalten oder irgendwie direkt an den Wert zu kommen, wäre da für alle Lösungsansätze offen.

Grüße

Code:

package iqoption;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;


public class FetchData {

    FetchData(){
        try {
            String baseUrl = "https://eu.iqoption.com/de/historical-financial-quotes?active_id=1&tz_offset=60&date=2017-2-16-";
            PrintWriter pw = new PrintWriter("iqoption_daten.txt", "UTF-8");

            for (int h=0; h<1; h++){
                for (int m=0; m<61; m++){
                    String fullURL = baseUrl + h + "-" + m;
                    
                    URL url = new URL(baseUrl);

                    URLConnection con = url.openConnection();
                    InputStream is = con.getInputStream();

                    BufferedReader br = new BufferedReader(new InputStreamReader(is));
                    
                    // Ignoring the first 540 lines
                    for (int i=1; i!=540; i++){
                        br.readLine();
                    }
                    String line = br.readLine();
                    String[] lineParts = line.split("val\">");

                    for (int i=1; i < 61; i++){
                        int pos = lineParts[i].indexOf('<');
                        String zahl = lineParts[i].substring(0, (pos-1));
                    }

                }
            }
            pw.close();
        } catch (Exception e){
            System.out.println(e.getMessage());
        }
    }
}

Chrissraud · 21. Februar 2017

Da sollte jsoup das richtige für sein. Damit kannst du direkt die html Elemente ansprechen und die werte auslesen.

Dann musst du auch nicht mehr mit BufferedReader arbeiten.

Valeria · 21. Februar 2017

// Ignoring the first 540 lines
for (int i=1; i!=540; i++){

Sollte das nicht i <= 540 heißen?
Oder es passt eh, hab noch nie for-Schleifen so benutzt

kthxbye · 21. Februar 2017

Auf der Seite wird scheinbar JavaScript verwendet, um die Seite mit den eigentlichen Werten zu befüllen.
Ich nehme also an, dass dir das Abfragen der reinen Html-Seite nichts bringen wird.

Dadurch, dass du die Seite bei dir im Browser geöffnet hast und JavaScript somit seinen Job machen konnte, hattest du in der "von Hand gespeicherten" Seite eben Werte gehabt.

distrophik · 21. Februar 2017

Du könntest mal anfragen, ob die Seite eine offene (REST) API anbietet. Damit würdest du bessere Ergebnisse erzielen als die Seite zu parsen.

Bagbag · 21. Februar 2017

Wie bereits gesagt wurde, nutzt die Website JavaScript um die Daten zu laden.

Mach einfach das nach, was das JavaScript macht: https://eu.iqoption.com/api/quote/history/v1/expirations?active_id=1&tz_offset=60&date=2017-2-20-16-0

active_id ist das Instrument, tz_offset das Offset der Zeitzone in Minuten.

umask007 · 21. Februar 2017

hier stand Müll

wahli · 21. Februar 2017

Ich wollte auch gerade die URL von Bagbag posten, die ich mit F12 und dann beim Menüpunkt "Netzwerkanalyse" rausgefunden habe. Da kommen die Daten bereits in schöner Form.

umask007 · 22. Februar 2017

Also ich wollte sie auch posten, habe die URL mit dem Porgramm Fiddler herausbekommen.
Die Daten sind übrigens im JSON Format. Es sollte schon Libraries geben, um die Daten zu parsen.

Finalspace · 22. Februar 2017

Nur so als Hinweiß:

Wenn du regelmäßig, bzw. in konstanten kurzen Zeitabständen Daten von solchen Seiten abgreifst - egal nach welcher Art, dann wird sowas als Angriff gewertet. Im besten Fall wird deine Server/Seite/IP geblockt, im schlimmsten Fall bekommst du oder dein Seitenbetreiber vom Anwalt nen schreiben, dass man keinen Crawler auf deren Seiten anwenden darf, da dies die Sicherheit reduziert und den Traffic erhöht -> Selbst schon erlebt, daher aufpassen!

Besser ist eine Offiziele API von denen zu nehmen, bei der du zwar meist eingeschränkter aber rechtlich abgesichert bist.

Bagbag · 22. Februar 2017

Wenn er da alle paar Minuten drauf zugreift, wird das wohl nicht mal auffallen.

Bright0001 · 22. Februar 2017

Hervorragende Antworten, danke!

Und wahli, wie oder wo genau hast du in der Netzwerkanalyse (bzw. in welchem Browser) gesehen wo die Daten drin sind? Hatte es da auch versucht aber nicht gefunden.

@Finalspace da mache ich mir keine Sorgen. Ich bin übers Uni-Netz mit dem Internet verbunden, also selbst wenn sie die Uni verklagen sollten müssten die sich schon ordentlich beeilen, denn die Logs halten bei uns 7 Tage.

Bagbag · 22. Februar 2017

Unter Chrome:
F12->Network->XHR

Unter Firefox:
F12->Netzwerkanalyse->XHR

Suche

Java Daten mit Java von Webseite ziehen

Bright0001

Commander

Chrissraud

Cadet 4th Year

Valeria

Admiral

kthxbye

Cadet 3rd Year

distrophik

Lieutenant

Bagbag

Commodore

umask007

Lt. Junior Grade

wahli

Admiral

umask007

Lt. Junior Grade

Finalspace

Lt. Junior Grade

Bagbag

Commodore

Bright0001

Commander

Bagbag

Commodore

Ähnliche Themen