„Wir wollen nicht mitschwimmen, sondern Meilensteine schaffen.“

Tilmann Piffl / Data Analytics


Tilmann Piffl ist promovierter Astrophysiker, arbeitete an der Universität Oxford und ist Teil unseres Data Science Teams. Im Gespräch schildert er seine Vision, seine Eindrücke vom Team und warum beim Thema Data Science noch längst nicht alles im Lot ist.

Von der Astrophysik in die Automobilindustrie – wie geht das denn?

Promoviert habe ich im Bereich Galactic Dynamics und Survey Mining (Galactic Archaeology). Hier ging es insbesondere darum, die Welt der theoretischen Physik und der Simulationen mit der Welt der astronomischen Beobachtungen zusammen zu bringen – und dann statistische Auswertungen zu machen. Schon damals habe ich Python und insbesondere das Jupyter Notebook (damals noch IPython Notebook) als Data Science Tool für mich entdeckt. Diese spielen auch jetzt noch für mich und die Data Science Welt insgesamt eine zentrale Rolle. Nach der Promotion verbrachte ich dann ein Jahr an der Uni Oxford als Postdoc; als ich dann gemerkt habe, dass mich die Analysemethoden mehr interessiert haben als die Ergebnisse, bin ich in die Wirtschaft umgestiegen.

Wohin ging die Reise?

Zunächst habe ich für unterschiedliche OEMs daran gearbeitet, Data Science- und Big Data Ansätze einzuführen und zu etablieren. Dort gab es zwar haufenweise Daten, aber da war noch viel Grundlagenarbeit zu verrichten, um sie erschließen. Ein Riesenthema waren die Automotive-spezifischen Binärdatenformate wie MDF4 oder ADTF. Ich habe dann sehr viel Zeit damit verbracht, diese mit dem Hadoop Ecosystem wie HDFS oder Spark zu verheiraten. Seither fühle ich im Automotive-Umfeld zuhause.

Warum hast du dich nun für Valtech Mobility entschieden?

Mich hat die starke Positionierung der Firma bei der Digitalisierung von Fahrzeugen imponiert: der MBB, den die Valtech gebaut hat, ist vermutlich die größte Connected Car-Platform weltweit und hier sitzen die Leute, die das gebaut haben! Ich als „klassischer“ Data Scientist hatte und habe hier auch die Möglichkeit noch wahnsinnig viel dazu zu lernen!

Wie sieht die gemeinsame Vision aus?

Der ganze Themenkomplex „Data“ ist ja gerade in aller Munde und wird von hohen Erwartungen getragen. Allerdings wird in dem Feld oft nicht sehr nachhaltig gearbeitet, weil Standards und Best Practices noch nicht so sehr etabliert sind wie beispielsweise im Software Engineering. Genau dorthin wollen wir aber als Team. Dafür nehmen wir uns auch regelmäßig Zeit um über unser Vorgehen in den Projekten zu reflektieren und so jeden Tag ein bisschen besser zu werden.

Du meintest, du seist eher ein „klassischer“ Data Scientist. Was bedeutet das?

Mich persönlich befriedigt es sehr, mir einen Datensatz zu erschließen, d.h. die internen Korrelationen und Zusammenhänge heraus zu arbeiten, aber auch die (immer vorhandenen) Inkonsistenzen zu finden und zu beheben. Oft ist natürlich eine ML-Applikation das Ziel des Projekts, aber Data Cleansing und Feature Engineering ist auch in Zeiten von Deep Learning unersetzlich.

Mit welchen Werkzeugen arbeitet man?

Für Exploration und das Prototyping ist die Mischung aus Jupyter, Python und Apache Spark für mich das Non-plus-Ultra, weil man damit die Data Preparation, Analyse, Visualisierung und Dokumentation vereint. Und seit Spark die Dataframe-API eingeführt hat, muss man mit pySpark auch performance-seitig kaum noch Abstriche machen. Im Laufe eines Projekt wechseln wir aber immer irgendwann zu Tools die einen nachhaltigen und skalierbaren Betrieb ermöglichen. Hier sind dann Tools wie Airflow, Kafka, Nifi und deren Äquivalente in den Public Clouds die Hauptdarsteller.

Jobs

Weitere Themen