4 Sekundärdaten gewinnen

📢 Zielsetzung dieser Einheit

Anhand der Unterscheidung zwischen Primär- und Sekundärdaten wollen wir in dieser Einheit die Gewinnung von Sekundärdaten behandeln. Neben der Frage wie Sekundärdaten prinzipiell erzeugt werden können, behandeln wir die Erschließung von Sekundärdaten mittels Repositorien. Abschließend werden wir uns über die Qualität und Nutzbarkeit von Sekundärdaten unterhalten.


4.1 (Sekundär-)Daten gewinnen

Sekundärdaten wollen für gewöhnlich gefunden werden - aber wie und warum eigentlich? Diesen beiden Fragen wollen wir hier kurz nachgehen:

4.1.1 Ein technischer Aspekt der Gewinnung von Sekundärdaten

Sekundärdaten werden oftmals im Comma-Seperated Values (CSV) Format vorgehalten. Was es mit diesem Format auf sich hat und warum ein guter Texteditor manchmal von Nutzen sein kann besprechen wir in diesem kurzen Video:

📚 Exkurs: Diakritische Zeichen

unterschiedliche diakritische Zeichen je Sprache → unterschiedliche Zeichenkodierungen von Text

  • ASCII: American Standards Association - 1963

  • ISO Standard: ISO 8859 für europäische Sprachen

  • ISO 8859-1 (aka. Latin-1), erweitert ISO 8859-15

  • Windows: Windows-1252 Westeuropäisch (= Fusion aus ISO 8859-1 und -15)

  • Unicode (aka ISO 10646) internationaler Standard

  • UTF-8: Universal Character Set Transformation Format
    De-facto Standard im Netz, aber optimiert für EN

4.2 Zur Qualität von Sekundärdaten

Nicht jeder verfügbare Datensatz sollte für wissenschaftliche Fragestellungen herangezogen werden. Entscheidend ist dessen qualitative Eignung. Was diese Eignung ausmacht und wie wir diese beurteilen können, wollen wir hier kurz behandeln:

4.3 Sekundärdaten als “Open Data” nutzen (können)

Um Sekundärdaten produktiv nutzen zu können, müssen diese nicht nur über Repositorien zugänglich gemacht sondern auch lizenziert werden. Was genau beim Lizenzieren von Daten passiert, wollen wir hier behandeln:


Die durch eine offene Lizenzierung entstehende “Offenheit” von Daten erläutert uns Matthias Hinz (Universität Rostock) in diesem ScreenTalk:


🏆 Nun wissen wir, …

  • dass der Entscheidung, Primär- und/oder Sekundärdaten zu nutzen ein pragmatischer Abgleich unterschiedlicher Faktoren zugrunde liegt.
  • dass Sekundärdaten meist durch Klassifikation, Aggregation oder Generalisierung aus Primärdaten erzeugt werden.
  • dass wir Sekundärdaten über Repositorien erschließen können.
  • dass die Qualität von Sekundärdaten durch deren Metadaten bestimmt wird.
  • dass die Nutzbarkeit von Sekundärdaten durch deren Lizenzierung bestimmt wird.

🤔 Und die Primärdaten?