Big Data

G-Red

Commander
Registriert
Jan. 2016
Beiträge
2.400
Hi Leute,
so richtig bin ich mir nicht sicher ob das Thema hierher gehört, daher wenn das thematisch besser woanders passt, bitte verschieben.

Zum eigentlichen Anliegen.
Ich bin derzeit in einem Unternehmen tätig, wo viele Sensordaten aus Anlagen verarbeitet werden, um u.a. für die Kunden in einem Portal diese dann aufgewertet zu präsentieren. Da es sich um sehr viele Daten handelt (monatlich ca 14TB mit steigender Tendenz) hat man sich für eines der BigDate Produkte entschieden und ist gerade dabei das nach und nach in Produktion zu integrieren.

Das eingesetzte Produkt bietet ein Sammelsorium an unterschiedlichsten Tools für verschiedene Zwecke. Unter anderem wird das Tool NiFi eingesetzt um Daten bzw. Streams zu übertragen und zu Verarbeiten.

Die Frage an Euch ist, ob jemand sich in diesem Bereich bewegt und das Tool kennt bzw. etwas zum einsteigen (bis auf RTFM) vorschlagen könnte?

Vielleicht kann der eine oder der andere mal die Erfahrungen teilen, wie der Einstig von einem selbst gelaufen ist und wie die Technologie in dem jeweiligen Unternehmen angekommen ist.

Vielen Dank schon mal im Voraus für eure Rückmeldungen!
 
Ich bewege mich seit einigen Jahren in dem Umfeld, ich setze solche Systeme auf, kenne aber Dein Tool nicht.

Was willst Du genau wissen? Einstiegshürde finde ich relativ hoch, und es sind eine Menge unterschiedliche Komponenten im Einsatz. In meinen Augen ist das ein Moloch.
 
Wenn NIFI dabei ist dann habt ihr sicherlich was aus der Apache-Welt im Einsatz. Wenn ihr was gekauft habt dann evtl. HortonWorks / Cloudera. Hatten wir bei uns auch mal im Einsatz sind aber inzwischen mit den Mitteln der AzureCloud sehr viel zufriedener (Maschinenbau 10k+ Mitarbeiter). Einer der Gründe warum wir die Apache-Welt verlassen hatten war die extreme Komplexität. Viel geht da nur über teure Berater.

Zum Reinkommen in NIFI findest du massig Info auf YouTube. Die Docs auf der offizielle Seite sind auch ok. Aber irgendwann kommt man nur noch mit zugekauftem KnowHow weiter … :(
 
  • Gefällt mir
Reaktionen: PHuV
PHuV schrieb:
In meinen Augen ist das ein Moloch.
Ja, das Gefühl habe ich auch, wenn ich die vielen Subsysteme und Stellen für das eine oder das andere mir anschaue.
PHuV schrieb:
Ich bewege mich seit einigen Jahren in dem Umfeld, ich setze solche Systeme auf, kenne aber Dein Tool nicht.
Wenn du nicht direkt was mit Datentransfer im Kontext der Auswertung beschäftigst, sondern nur aus der technischen Sicht, dann kann ich mir schon vorstellen dass du davon noch nicht gehört hast. Oder man Setzt bei euch auf ein anderes Tool welcher eher über Shellscripte bedient wird.
PHuV schrieb:
Was willst Du genau wissen?
In erster Linie hat mich natürlich irgendeine Literatur (außerhalb von RTFM) für das genannte Tool interessiert.
Ansonsten wie ich gesagt habe, die eigenen Erfahrungen in dem wie gut/schlecht das ganze System zu Managen ist und was so die eigenen Hürden sind und waren, die überwunden werden mussten.
Ergänzung ()

blablub1212 schrieb:
Wenn NIFI dabei ist dann habt ihr sicherlich was aus der Apache-Welt im Einsatz. Wenn ihr was gekauft habt dann evtl. HortonWorks / Cloudera.
Richtig. Cloudera ist im Einsatz mit all dem Zoo an Tools :).
blablub1212 schrieb:
Hatten wir bei uns auch mal im Einsatz sind aber inzwischen mit den Mitteln der AzureCloud sehr viel zufriedener (Maschinenbau 10k+ Mitarbeiter).
Wenns kein Betriebsgeheimnis ist, wie ist das mit der Performance in diesem Zusammenspiel? Bewegt ihr euch auch bei der Datenmenge in dem von mir genannten Bereich?
blablub1212 schrieb:
Einer der Gründe warum wir die Apache-Welt verlassen hatten war die extreme Komplexität. Viel geht da nur über teure Berater.
Ja, die Komplexität und die ganzen Abhängigkeiten, sind auch bei uns derzeit das tägliche Thema wo man ständig an irgendwelchen Stellschrauben drehen muss.
blablub1212 schrieb:
Zum Reinkommen in NIFI findest du massig Info auf YouTube. Die Docs auf der offizielle Seite sind auch ok. Aber irgendwann kommt man nur noch mit zugekauftem KnowHow weiter … :(
Ok, das überschneidet sich in etwa mit der Erkenntniss die ich mitlerweile auch gewonnen habe :).
Ergänzung ()

@blablub1212
Bei welchem Zeitpunkt habt ihr eigentlich die Reisleine gezogen, um von Apache Welt zu AzureCloud zu wechseln?
 
Zuletzt bearbeitet:
Gab's denn keine Toolsschulung bzw. ein Schulungsplan?
Wurde das Projekt durchgeführt und nicht in operations übergeben?
 
Thema Apache NiFi
Nach meinem Verständnis ist Apache Nifi ein vergleichbares Tool wie Apache Airflow.
Dass hat aber nicht direkt mir Big Data zu tun sondern wird dazu genutzt um Pipelines verschiedener Job zu generieren (DAGs) bzw. laut Beschreibung von Wiki zum Automatisieren von Dataflows.
https://en.wikipedia.org/wiki/Apache_NiFi

Dafür nutzen wir bei uns Airflow und NiFi

Thema Cloudera
Wenn du gut in SQL bist empfehle ich dir mal Impala oder Hive anzuschauen(Batch).
Wenn du fortgeschrittene Sachen machen willst werdet ihr vermutlich nicht um Apache Spark rumkommen(Batch).
Bei Streaming Daten wird soweit ich weiß auch Apache Kafka bzw. Apache Beam(?) genutzt.
Ich bin aber kein Experte für Stream Processing.

Thema Cloud Migration
Kann da blablub1212 nur zustimmen.
Ich glaube auf kurz oder lang werdet ihr auch in der Cloud landen.
Frag doch mal deine Chefs wieviel ihr jedes Jahr an Cloudera abdrückt :D
Cloudera bieten auch Schulung/Consulting etc. für ihre on prem cluster an. Kostet aber :)
Meiner Meinung sind 14 TB pro Monat zu viel um das langfristig onpremise zu verarbeiten, aber ich weiß auch nicht was ihr macht.
 
DragoonX schrieb:
Thema Apache NiFi
Nach meinem Verständnis ist Apache Nifi ein vergleichbares Tool wie Apache Airflow.
Dass hat aber nicht direkt mir Big Data zu tun sondern wird dazu genutzt um Pipelines verschiedener Job zu generieren (DAGs) bzw. laut Beschreibung von Wiki zum Automatisieren von Dataflows.
https://en.wikipedia.org/wiki/Apache_NiFi

Dafür nutzen wir bei uns Airflow und NiFi
Das ist richtig, direkt mit BigData hat es nicht zu tun aber in unserem Kontext, Kafka-Streams oder Exporte aus Druid wird es eingesetzt.
DragoonX schrieb:
Thema Cloudera
Wenn du gut in SQL bist empfehle ich dir mal Impala oder Hive anzuschauen(Batch).
Wenn du fortgeschrittene Sachen machen willst werdet ihr vermutlich nicht um Apache Spark rumkommen(Batch).
Bei Streaming Daten wird soweit ich weiß auch Apache Kafka bzw. Apache Beam(?) genutzt.
Ich bin aber kein Experte für Stream Processing.

Thema Cloud Migration
Kann da blablub1212 nur zustimmen.
Ich glaube auf kurz oder lang werdet ihr auch in der Cloud landen.
Frag doch mal deine Chefs wieviel ihr jedes Jahr an Cloudera abdrückt :D
Die Supportverträge existieren und werden genutzt. Wurden vermutlich von Oben, mit dem Wissen um die Kosten, auch abgesegnet.
DragoonX schrieb:
Cloudera bieten auch Schulung/Consulting etc. für ihre on prem cluster an. Kostet aber :)
Ist ebenfalls bekannt und wird genutzt :).
DragoonX schrieb:
Meiner Meinung sind 14 TB pro Monat zu viel um das langfristig onpremise zu verarbeiten, aber ich weiß auch nicht was ihr macht.
Das Unternehmen hat das wohl im Auge und scheinbar kein Problem damit, da einen eigenen Rechenzentrum in Betrieb hat wo genug Ressourcen verfügbar sind. Die Daten werden ja nicht alle live Verarbeitet. Es wird in Cold und Hot unterschieden, wo Hot einen Zeitraum von 70 Tagen eindeckt oder so und der rest wir dann auf langsamere Speichermedien ausgelagert und bei Bedarf nachgezogen, aber dann mit entsprechendem Timedelay.


Wie sieht das eigentlich mit Datenverfügbarkeit aus, wenn die Azure Dienste mal ausfallen oder irgendwelche Baggerarbeiten das Transatlantische Kabel einreisen :)? Oder ist man sicher, dass die Daten im Europäischen Raum bleiben?
 
Zuletzt bearbeitet:
G-Red schrieb:
Richtig. Cloudera ist im Einsatz mit all dem Zoo an Tools :).
Aktuell auf meiner Hassliste ganz oben. Wie oben blablub1212 haben wir hier die Reißleine gezogen und am Jahresanfang den Support für Cloudera eingestellt, und setzen nun andere Mittel ein, sei es über Azure oder AWS.
 
PHuV schrieb:
Aktuell auf meiner Hassliste ganz oben.
Wow, so schlimm?
Was ist den da bei euch schief gelaufen, wenn ich fragen darf?
 
Zurück
Oben