Pandas Archive · Data Science Architect

merge, join und concat in Pandas

5. November 2019 ·
Kategorie: Python

Auch wenn es eine ausführliche Online-Dokumentation auf der Pandas-Homepage über die Join-Funktionen existiert, trägt diese nicht gerade dazu bei, sich schnell in die unterschiedlichen Methoden und Funktionen einzufinden. Dies liegt insbesondere daran, dass die offizielle Dokumentation sehr umfassend, viele spezielle Anwendungen aufführt. Mit diesem Artikel möchte ich einige wesentliche Aspekte auf den Punkt bringen und eine kleine Heurisitik bereitstellen, um zwischen den verschiedenen Möglichkeiten Daten miteinander zu verknüpfen die richtige auszuwählen.

Der Datentyp ‚Categorial‘ in pandas

22. Oktober 2019 ·
Kategorie: Data Science, Python

In diesem Beitrag geht es um den in der Bibliothek pandas implementierten Datentyp ‚Categorial‘ – wofür dieser entworfen wurde und wie er implementiert ist.

Bedingte Berechnungen in Pandas

27. März 2019 ·
Kategorie: Python

Berechnungen nach einer Bedingung in unterschiedlicher Art und Weise durchzuführen, ist eine wichtige Technik des Data Scientist. Hier werden die 3 zentralen Techniken beschrieben, mit denen sich auf DataFrames bedingte Berechnungen durchführen lassen.

Missing Values in Pandas

15. März 2019 ·
Kategorie: Python

Auch wenn sie unerwünscht sind: Missings gehören nunmal häufig zum Datenmanagementprozess. Dieser Beitrag widmet sich daher der Frage, wie in pandas mit Missing-Werten umgegangen wird.

Kreuztabellen in Pandas

15. März 2019 ·
Kategorie: Python

Kategoriale Daten werden in der Regel über Auszählungen analysiert. Wie sie einfache Häufigkeits- bis hin zu komplexen Kreuztabellen mit pandas erstellen, erfahren Sie in diesem Beitrag.

Selektieren von Daten in DataFrames

15. März 2019 ·
Kategorie: Python

Die Selektion von Daten um Subsets zu erstellen oder Werte zu aktualisieren, gehört zu den elementarsten Techniken, mit denen der Data-Scientist umzugehen hat. In diesem Beitrag werden die Methoden der Dateneselktion auf DataFrames vorgestellt.

Spalten / Zeilen erstellen, löschen und sortieren in pandas

15. März 2019 ·
Kategorie: Python

In diesem Beitrag geht es um 3 zentrale Techniken, die wohl in jedem Datenmanagementprozess gebraucht werden: Das Erstellen, Löschen und Sortieren von Spalten und Zeilen in einem pandas-DataFrame.

Die Python Evolution zum Data-Science Tool

15. März 2019 ·
Kategorie: Data Science, Python

Guido van Rossum veröffentlichte Python im Jahr 1991, in einer Zeit als der Data-Science-Begriff noch nicht geboren war – und auch wenn Python als General-Purpose Sprache vielen Problemklassen zuzuordnen ist, hat sie sich als meistgenutzes Tool im Bereich Data Science etabliert. Doch wie ist es eigentlich zu dieser Entwicklung gekommen?

Schlagwort: Pandas