merge, join und concat in Pandas

Auch wenn es eine ausführliche Online-Dokumentation auf der Pandas-Homepage über die Join-Funktionen existiert, trägt diese nicht gerade dazu bei, sich schnell in die unterschiedlichen Methoden und Funktionen einzufinden. Dies liegt insbesondere daran, dass die offizielle Dokumentation sehr umfassend, viele spezielle Anwendungen aufführt. Mit diesem Artikel möchte ich einige wesentliche Aspekte auf den Punkt bringen und eine kleine Heurisitik bereitstellen, um zwischen den verschiedenen Möglichkeiten Daten miteinander zu verknüpfen die richtige auszuwählen.

Bedingte Berechnungen in Pandas

Berechnungen nach einer Bedingung in unterschiedlicher Art und Weise durchzuführen, ist eine wichtige Technik des Data Scientist. Hier werden die 3 zentralen Techniken beschrieben, mit denen sich auf DataFrames bedingte Berechnungen durchführen lassen.

Missing Values in Pandas

Auch wenn sie unerwünscht sind: Missings gehören nunmal häufig zum Datenmanagementprozess. Dieser Beitrag widmet sich daher der Frage, wie in pandas mit Missing-Werten umgegangen wird.

Kreuztabellen in Pandas

Kategoriale Daten werden in der Regel über Auszählungen analysiert. Wie sie einfache Häufigkeits- bis hin zu komplexen Kreuztabellen mit pandas erstellen, erfahren Sie in diesem Beitrag.

Selektieren von Daten in DataFrames

Die Selektion von Daten um Subsets zu erstellen oder Werte zu aktualisieren, gehört zu den elementarsten Techniken, mit denen der Data-Scientist umzugehen hat. In diesem Beitrag werden die Methoden der Dateneselktion auf DataFrames vorgestellt.

Die Python Evolution zum Data-Science Tool

Guido van Rossum veröffentlichte Python im Jahr 1991, in einer Zeit als der Data-Science-Begriff noch nicht geboren war – und auch wenn Python als General-Purpose Sprache vielen Problemklassen zuzuordnen ist, hat sie sich als meistgenutzes Tool im Bereich Data Science etabliert. Doch wie ist es eigentlich zu dieser Entwicklung gekommen?