Willkommen beim Medien-Atlas!
Im Medien-Atlas finden Sie vielfältige statistische Analysen über die deutsche Medien-Landschaft.
Wir, Simon Leiß, Janek Blankenburg und Raphael Schönball, laden bestimmte Informationen von Artikeln, die über die RSS-Feeds von Medienhäusern veröffentlicht wurden, per Web-Scraping in eine Datenbank und analysieren diese mithilfe diverser Data-Science-Methoden.
Die entnommenen Informationen der Artikel setzen sich aus folgenden Bestandteilen zusammen:
- die Überschrift,
- ein kurzer Zusammenfassungstext (auch: Aufhängertext),
- die Themenzuordnung (auch: Schlagwörter),
- das Ressort ,
- das Datum der Veröffentlichung, sowie
- die Autoren.
Wir haben nachfolgende überregionale Institutionen für die Auswertungen ausgewählt:
- Süddeutsche Zeitung (SZ)
- Frankfurter Allgemeine Zeitung (FAZ)
- Die Bild (Bild)
- Presseportal
- Spiegel (SPON)
- Tagesspiegel
- taz
- Die Welt
- Die Zeit
- Bundestag*
- Bundesministerium für Wirtschaft und Energie*
* Die RSS-Feeds werden erfasst, allerdings in den Analysen nicht weiter berücksichtigt.
Um Ihnen ein eigenes Gefühl für die zugrunde liegenden Daten zu geben, haben wir verschiedene sogenannte Data-Cube-Facetten integriert. Mit diesen können Sie sich interaktiv Ihre eigenen Auswertungen zusammenstellen.
Welche Einsichten in die deutsche Medien-Landschaft mit dieser Datenbasis möglich sind, erfahren Sie nun auf den nächsten Seiten.
Von wem stammen die erfassten Artikel?
Von wem stammen die erfassten Artikel?
Größe des Wortschatzes
Wer hat wie viele unterschiedliche Wörter verwendet?
Mithilfe eines Python-Scripts werden alle 12 Stunden für alle veröffentlichenden Stellen je 1000 zufällige Artikel ausgewählt. Von diesen ausgewählten Artikeln wird die Anzahl der verschiedenen Wörter ermittelt.
Über die Option Auswahl
kann gewählt werden, ob nur Überschriften, nur die Artikeltexte oder beides (Summe) dargestellt werden soll.
Über die Option Darstellung
kann gewählt werden, ob der Anteil verschiedener Wörter in Relation zur Gesamtzahl der Wörter oder die absolute Anzahl dargestellt werden soll.
Für die Berechnung wird zunächst für jede veröffentlichende Stelle 1000 zufällige Überschriften & Artikeltexte ausgewählt. Alle darin vorkommenden Wörter werden danach mithilfe der Python-Library spacy
gestemmt, d.h. in ihre Stammform reduziert.
Bei diesen überführten Wörtern werden danach Duplikate entfernt, so lassen sich die Anzahl der verschiedenen vorkommenden Wörter bestimmen. Je nach Wahl der Option Darstellung
wird diese Zahl noch durch die Gesamtzahl der Wörter in den ausgewählten Texten diviert.
Ein höherer Wert in der relativen Darstellung
bedeutet, dass die Anzahl an verschiedenen Wörtern an der Gesamtzahl der Wörter geringer ist, der Wortschatz ist damit also insgesamt kleiner als bei einem niedrigen Wert.
Die Berechnung erfolgt für alle veröffentlichenden Stellen unabhängig voneinander, eine Beeinflussung ist hier nicht gegeben.
Einem Artikel werden meistens mehrere Schlagwörter oder generelle Themen zugeordnet.
Mit welchen Themen beschäftigen sich die meisten Artikel?
Ein Autor eines Artikels ordnet den Artikel mehreren Schlagwörtern oder generellen Themen zu. Eine Wordcloud visualisiert, wie häufig bei allen Artikeln aus der Datenbank welche Themen/Schlagwörter vom Verfasser ausgewählt worden sind. Es werden die 70 Themen dargestellt, die am häufigsten vorkommen und durch die Größe des jeweiligen Wortes in eine Rangfolge gebracht.
Maschinelles Lernen erkennt anhand der Wortwahl, von welchem Medienhaus ein Artikel stammt.
Dabei sind nachfolgende Wörter wichtig.
Alle 12 Stunden wird im Hintergrund mithilfe der glmnet-library eine Klassifizierung der Daten vorgenommen.
Dabei wird anhand des erfassten Shorttextes auf die veröffentlichende Stelle geschlossen.
Es wird ein multi-nomialer Response-Typ verwendet, da alle Publisher gleichzeitig klassifiziert werden.
Der Alpha-Parameter wurde dabei auf 1 gesetzt, dadurch wird lediglich die Lasso-Bestrafung verwendet und die Ridge-Bestrafung wird verworfen.
Anschließend wird die predict-Funktion verwendet, um für jeden Publisher herauszufinden, welche Wörter einen hohen Koeffzienten haben (und damit einen hohen Indikator darstellen).
Die berechneten Koeffizienten werden dann mithilfe einer Wordcloud dargestellt. Dafür werden zusätzlich die Koeffizienten noch logarithmiert, da bei einigen Publishern die Koeffizienten stark verschieden sind und sonst Wörter mit geringen Koeffizienten nicht angezeigt werden würden.
Maschinelles Lernen erkennt anhand der Wortwahl, welchem Ressort ein Artikel zuzuordnen ist.
Dabei sind nachfolgende Wörter wichtig.
Die Erarbeitung ist analog zu dem Verfahren unter Formulierstil/Indikator-Wörter, jedoch wird hier als Zielvariable das Ressort, statt dem Publisher verwendet.
Ein Artikel wird meist mehreren Schlagwörtern oder generellen Themen zugeordnet.
Wenn zwei Themen häufig miteinander vorkommen, sind sie im Netzwerk verbunden.
Zur Erstellung des Netzwerks wird geprüft, welche Kategorien gemeinsam in Artikeln auftreten. Derzeit werden hierfür nur Artikel aus dem Politik-Ressort der jeweiligen Zeitung betrachtet. Über den Regler lässt sich einstellen, wie oft zwei Kategorien mindestens gemeinsam auftreten müssen, damit eine Kante zwischen den entsprechenden Knoten vorhanden ist.
Das Netzwerk lässt sich durch Zoomen genauer betrachten, ebenfalls kann ein beliebiger Knoten angeklickt werden, um alle damit verbundenen Knoten hervorheben zu lassen. Weiterhin kann das Netzwerk umgeordnet werden, indem einzelne Knoten verschoben werden.
Trendthemen
Wann wurde wie oft und von wem über ein Thema berichtet?
Mithilfe von Datum
kann ein Datumsbereich für die Analyse ausgewählt werden. Dabei werden alle Artikel ab 0:00 Uhr des Starttages bis 23:59 des Endtages einbezogen.
Zusätzlich können Publishers
ausgewählt werden. Wenn kein Publisher ausgewählt wird, werden alle Zeitungen verwendet.
Geben Sie im Textfeld Trendthema
einen Suchbegriff Ihrer Wahl ein. Z.B. Covid oder Weihnachten. Die Analyse zeigt an, wie häufig der Suchbegriff in Artkeln vorkommt. Mehrere Suchwörter können über ein ,
getrennt eingegeben werden. Hierbei werden alle Artikel dargestellt, in denen zumindest einer der Suchbegriffe vorhanden ist.
Über die Auswahl Gruppieren nach
kann ausgewählt werden, wie Artikel gruppiert werden sollen. Standardmäßig wird der Artikel nach Tagen gruppiert, weiterhin ist eine Gruppierung nach Wochen (hierbei wird jeweils der Montag der Woche verwendet), Monat (1. jeden Monats), Wochentag (0 für Montag, 6 für Sonntag), Stunde (Datum + Uhrzeit), Stunde pro Tag (0 - 24 Uhr).
Des Weiteren kann der verwendete Zeitpunkt unterschieden werden.Hierbei stellt Abruf
den Zeitpunkt des Erfassens durch unsere Systeme dar, Veröffentlichung
den durch die Zeitungen angegebene Zeitpunkt. Teilweise weichen die beiden Zeitpunkte um mehrere Stunden ab, insbesondere, wenn Artikel, welche in der Print-Ausgabe einer Zeitung erscheinen bereits am Abend eines Tages für den Morgen des nächsten Tages vordatiert werden.
Die Option y-Achse
sorgt standardmäßig dafür, dass die blanke Anzahl an Artikeln mit Suchbegriff angezeigt wird. Zusätzlich wird eine relative Darstellung angeboten. Die Option Aufmerksamkeit im Vergleich zu allen anderen Themen
zeigt wie viel Prozent der Berichterstattung dem Thema gewidment worden ist. Also: Wie viel Prozent der Artikel der SZ im Dezember hatten Weihnachten als Thema.
In der Auswahl Nach Publishern trennen
wird ausgewählt, ob alle Zeitungen aufaddiert werden sollen und gesammelt dargestellt werden sollen, oder jede Zeitung einzeln dargestellt werden soll.
Topbegriffe des Tages
Diese Begriffe werden an einem Tag übermäßig häufig verwendet.
Zunächst werden für jeden Tag die 1000 am häufigsten vorkommenden Wörter bestimmt, dabei wird die Überschrift und der Shorttext mit einbezogen. Diese Wörter werden über alle Tage hinweg vereinigt, sodass eine Liste mit allen Wörtern, die an min. 1 Tag in den 1000 häufigsten Wörtern vorkommen, vorhanden ist.
Danach wird für jedes ausgewählte Wort die absolute Häufigkeit über alle Tage und die durchschnittliche Häufigkeit pro Tag bestimmt.
Für jeden Tag wird geprüft, ob das gewählte Wort an diesem Tag mindestens 10mal so oft wie im Durschnitt pro Tag vorkommt. Wörter, welche dieses Kriterium erfüllen werden gespeichert, dabei wird ebenfalls gespeichert, an welchem Tag dieses Wort ‘getrended’ ist.
Dieser Vorgang wird im Hintergrund alle 12 Stunden ausgeführt. Bei Auswahl eines Datums auf der Weboberfläche werden die gespeicherten Wörter für diesen Tag ausgelesen und, falls vorhanden, ausgegeben.
Erläuterung der Topbegriffe durch andere Wörter
Für einen Topbegriff werden inhaltlich ähnliche Wörter gesucht.
Zunächst werden alle Artikel für den ausgewählten Tag aus der Datenbank geladen.
Die Artikel werden in 2 Teile unterteilt: Artikel, welche den eingegeben Filter
in Überschrift oder Shorttext enthalten und Artikel, welche den Filter nicht enthalten.
Wörter, welche insgesamt nur sehr selten vorkommen werden entfernt, da diese das Ergebnis sonst verfälschen würden.
Im nächsten Schritt wird mithilfe der glmnet-library ein binomiales Modell erstellt, dabei wird lediglich die Lasso-Bestrafung verwendet. Das Modell findet Wörter, welche einen hohen Koeffizienten haben und daher auf den gesuchten Filter schließen.
Bevor die gefundenen Wörter mithilfe einer Wordcloud dargestellt werden können, werden die Koeffizienten zunächst mit dem Faktor 100 000 multipliziert. Dies verhindert, dass die Wordcloud-Library Wörter mit Koeffizienten zwischen 0 und 1 nicht darstellt. Schließlich werden die Koeffizienten noch mithilfe einer Logarithmus-Funktion gestaucht, ohne diese Stauchung haben einige Wörter (vorallem solche, die den Filter direkt enthalten) einen extrem hohen Koeffizienten, wohingegen inhaltlich ähnliche Wörter einen niedrigen Koeffizienten haben und dadurch nicht mehr/nur sehr klein in der Wordcloud dargestellt werden.
Über das Projekt
Der Medien-Atlas ist ein Projekt, welches im Rahmen des Seminars „(POL20400) Political Data Science“ der Hochschule für Politik München (HfP) an der Technischen Universität München (TUM) im Wintersemester 2018/2019 entstanden ist.
Motivation
Nach einer lebendigen Debatte über Journalismus und Medien in Deutschland waren wir an empirischen Untersuchungen zu gewissen Streitpunkten interessiert, um private Debatten faktenbasierter und sachlicher führen zu können.
Grundlegendes Konzept
Ein Java Programm liest die RSS-Feeds der wichtigsten deutschen Nachrichtenhäusern ein und fügt sie zu einer Datenbank hinzu. Auf dieser Ebene werden verschiedenen Analysen und Auswertungen durchgeführt.
Im Folgenden sind sowohl der Prozess der Datenerfassung, als auch die verschiedenen Auswertungen genauer dokumentiert.
Die Grundidee war möglichst viele Artikel der größten deutschen Nachrichtenhäuser in einer Datenbank zu erfassen. Auf Grund von rechtlichen Bedenken haben wir uns dazu entschieden nur die Daten zu erfassen, die in den jeweiligen RSS-Feeds der Zeitungen veröffentlicht werden. Im Allgemeinen lässt sich feststellen, dass jede Zeitung für jedes Ressort einen eigenen RSS-Feed pflegt.
Überblick
Der allgemeine Prozess zur Datenerfassung verläuft wie folgt:
Ein cronjob startet alle 5 Minuten ein Java-Programm. Dieses lädt nacheinander alle RSS-Feeds und konvertiert diese in ein einheitliches Datenformat. Im nächsten Schritt wird für jeden Artikel geprüft, ob er zwischen der letzten und der aktuellen Zugriffszeit veröffentlicht wurde. (Dies ist nötig, um auch Artikel die vorveröffentlicht wurden nur einmal zu erfassen.) Ist dies der Fall, wird der Artikel in der Datenbank hinzugefügt. Dies führt dazu, dass wenn der gleiche Artikel in mehreren Ressorts (also in mehreren RSS-Feeds) veröffentlicht wird, er auch mehrfach in die Datenbank hinzugefügt wird. (Um diesen Effekt ignorieren zu können, gibt es in der Datenbank verschieden Automatismen: vgl. Dokumentation-Datenbank)
Ablauf
Zu Beginn des Javaprogramms wird zunächst versucht eine Verbindung mit der Datenbank aufzubauen. War dies erfolgreich, werden nacheinander alle RSS-Feeds gelesen. Dazu wird für jeden Feed die Methode ‘parseFeed’ aufgerufen. Dieser wird jeweils eine neue Version des für die veröffentlichende Stelle, sowie zu dem Ressort passende Parsers, sowie die URL des RSS-Feeds übergeben. Die Methode parset das xml Element, das den RSS-Feed repräsentiert mit dem übergeben parser. In diesem erfolgt die eigentliche Logik: Der Parser liest für jeden Artikel die Werte der einzelnen Values (wie z.B. Überschrift oder Autor). Im zweiten Schritt „übersetzen“ explizite Parser für die jeweilige Information für den aktuellen publisher die Werte in verwendbare Daten. Mit diesen Informationen wird ein Objekt der Klasse Artikel erstellt, welches die gleichen Attribute erwartet, wie die entsprechenden Datenbankrelation. Im Folgenden wird geprüft, ob der aktuelle Artikel in die Datenbank hinzugefügt werden muss. Dies passiert in dem geprüft wird, ob es in der Datenbank bereits einen Eintrag mit den exakt gleichen Informationen gibt. Explizit gilt das auch für den Veröffentlichungszeitpunkt. Befindet sich der aktuelle Artikel noch nicht in der Datenbank muss er hinzugefügt werden. Hierbei wird geprüft, ob alle Randinformationen bereits vorhanden sind. Handelt es sich bei dem Artikel z.B. um den ersten aus seinem Ressort, wird automatisch in der entsprechenden Tabelle das Ressort angelegt. Das Gleiche passiert für Autoren und Kategorien bzw. mögliche Metadaten (vgl. Dokumentation-Datenbank). Dieses Verfahren wird zunächst für jeden Artikel eines Ressorts eines Mediums, dann für alle Ressorts und schließlich für alle Zeitungen wiederholt.
RSS-Feeds
Aufbau
Ein Knoten (der einen Artikel repräsentiert) in einem RSS-Feed sieht beispielsweise wie folgt aus:
<item>
<title>Ermittlungen beim Militär: Türkische Behörden nehmen Dutzende angebliche Terrorverdächtige fest</title>
<link>http://www.spiegel.de/politik/ausland/tuerkei-festnahmen-wegen-angeblichem-terrorverdacht-a-1245951.html#ref=rss</link>
<description>Mit weiteren Festnahmen gehen türkische Behörden gegen angebliche Terrorverdächtige im Militär vor. Auch höherrangige Offiziere sind betroffen. </description>
<pubDate>Mon, 31 Dec 2018 13:33:00 +0100</pubDate>
<guid>http://www.spiegel.de/politik/ausland/tuerkei-festnahmen-wegen-angeblichem-terrorverdacht-a-1245951.html</guid>
</item>
Quelle: www.spiegel.de
Im Allgemeinen erwartet der ‘DefaultParser’ folgendes Schema:
<item>
<pubDate>
<author>
<category>
<title>
<description>
<link>
<guid>
</item>
*Die Reihenfolge in der sich die Informationen in einem Tag befinden ist egal.
Dieses Schema wird im Allgemeinen bei allen eingebunden Quellen in dieser oder einer sehr ähnlichen Form benutzt. Ein solcher Unterschied besteht z.B. bei der SZ. Hier heißt der Tag <description>
<shorttext>
. Um dies auszugleichen gibt es für jede veröffentlichende Stelle einen eigenen Parser der von dem von uns geschrieben ‘DefaultParser’ erbet. Neben der unterschiedlichen oben beschriebenen Benennung von einzelnen Informationen gibt es die größten Unterschiede in dem (zum Teil vorhandenem) Beitragsbild. Dieses hat zum Teil einen eigenen Tag, erscheint zum Teil aber auch in der Überschrift oder in der Kurzbeschreibung. Auch diese Unterschieden werden durch die individuellen Parser ausgeglichen.
Folgende RSS-Feeds werden aktuell von uns verwendet werden:
NewsFeed
Die meisten der eingebundenen veröffentlichenden Stellen, betreiben einen News-Feed, in dem die aktuell wichtigsten Artikel unabhängig vom Ressort veröffentlicht werden. Die meisten der dort veröffentlichten Artiekl werden auch in mindestens einem anderen ressort-spezifischen Feed veröffentlicht. Für die Analyse der Daten nach verschiedenen Ressorts werden diese News-Feeds ausgeschlossen, damit die Artikel nur in ihrem eigentlichen Ressorts berücksichtigt werden. Dies passiert in der Datenbank über eine View (vgl. Dokumentation-Datenbank).
SZ:
- Eilmeldungen (http://rss.sueddeutsche.de/rss/Eilmeldungen)
- Politik (http://rss.sueddeutsche.de/rss/Politik)
- Wirtschaft (http://rss.sueddeutsche.de/rss/Wirtschaft)
- Geld (http://rss.sueddeutsche.de/rss/Geld)
- Panorama (http://rss.sueddeutsche.de/rss/Panorama)
- Gesellschaft (http://rss.sueddeutsche.de/rss/Leben)
- Sport (http://rss.sueddeutsche.de/rss/Sport)
- München (http://rss.sueddeutsche.de/rss/Muenchen)
- Bayern (http://rss.sueddeutsche.de/rss/Bayern)
- Kultur (http://rss.sueddeutsche.de/rss/Kultur)
- Medien (http://rss.sueddeutsche.de/rss/Medien)
- Wissen (http://rss.sueddeutsche.de/rss/Wissen)
- Gesundheit (http://rss.sueddeutsche.de/rss/gesundheit)
- Digital (http://rss.sueddeutsche.de/rss/digital)
- Karriere (http://rss.sueddeutsche.de/rss/Karriere)
- Bildung (http://rss.sueddeutsche.de/rss/Bildung)
- Reise (http://rss.sueddeutsche.de/rss/Reise)
- Auto (http://rss.sueddeutsche.de/rss/auto)
- Stil (http://rss.sueddeutsche.de/rss/stil)
- SZ Magazin (https://sz-magazin.sueddeutsche.de/rss)
- jetzt.de (https://www.jetzt.de/alle_artikel.rss)
FAZ
- Politik (http://www.faz.net/rss/aktuell/politik/)
- Wirtschaft (http://www.faz.net/rss/aktuell/wirtschaft/)
- Finanzen (http://www.faz.net/rss/aktuell/finanzen/)
- Feuilleton (http://www.faz.net/rss/aktuell/feuilleton/)
- Sport (http://www.faz.net/rss/aktuell/sport/)
- Gesellschaft (http://www.faz.net/rss/aktuell/gesellschaft/)
- Stil (http://www.faz.net/rss/aktuell/stil/)
- Rhein-Main (http://www.faz.net/rss/aktuell/rhein-main/)
- Technik (http://www.faz.net/rss/aktuell/technik-motor/)
- Wissen (http://www.faz.net/rss/aktuell/wissen/)
- Reisen (http://www.faz.net/rss/aktuell/reise/)
- Karriere (http://www.faz.net/rss/aktuell/beruf-chance/)
Spiegel
- Eilmeldungen (http://www.spiegel.de/schlagzeilen/eilmeldungen/index.rss)
- Politik (http://www.spiegel.de/politik/index.rss)
- Wirtschaft (http://www.spiegel.de/wirtschaft/index.rss)
- Panorama (http://www.spiegel.de/panorama/index.rss)
- Sport (http://www.spiegel.de/sport/index.rss)
- Kultur (http://www.spiegel.de/kultur/index.rss)
- Netzwelt (http://www.spiegel.de/netzwelt/index.rss)
- Wissenschaft (http://www.spiegel.de/wissenschaft/index.rss)
- Gesundheit (http://www.spiegel.de/gesundheit/index.rss)
- Wirtschaft (http://www.spiegel.de/karriere/index.rss)
- UniSPIEGEL (http://www.spiegel.de/unispiegel/index.rss)
- Reise (http://www.spiegel.de/reise/index.rss)
- Auto (http://www.spiegel.de/auto/index.rss)
Welt
- Politik (https://www.welt.de/feeds/section/politik.rss)
- Wirtschaft (https://www.welt.de/feeds/section/wirtschaft.rss)
- BILANZ (https://www.welt.de/feeds/section/wirtschaft/bilanz.rss)
- Geld (https://www.welt.de/feeds/section/finanzen.rss)
- Digital (https://www.welt.de/feeds/section/wirtschaft/webwelt.rss)
- Wissen (https://www.welt.de/feeds/section/wissenschaft.rss)
- Kultur (https://www.welt.de/feeds/section/kultur.rss)
- Sport (https://www.welt.de/feeds/section/sport.rss)
- ICON (https://www.welt.de/feeds/section/icon.rss)
- Gesundheit (https://www.welt.de/feeds/section/gesundheit.rss)
- Panorama (https://www.welt.de/feeds/section/vermischtes.rss)
- Motor (https://www.welt.de/feeds/section/motor.rss)
- Reise (https://www.welt.de/feeds/section/reise.rss)
- Regional (https://www.welt.de/feeds/section/regionales.rss)
- Meinung (https://www.welt.de/feeds/section/debatte.rss)
Bild
- Politik (https://www.bild.de/rssfeeds/vw-politik/vw-politik-16728980,dzbildplus=true,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- News (https://www.bild.de/rssfeeds/vw-news/vw-news-16726644,dzbildplus=true,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Unterhaltung (https://www.bild.de/rssfeeds/vw-unterhaltung/vw-unterhaltung-16729874,dzbildplus=true,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Sport (https://www.bild.de/rssfeeds/vw-sport/vw-sport-16729856,dzbildplus=true,short=1,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Lifestyle (https://www.bild.de/rssfeeds/vw-lifestyle/vw-lifestyle-16728898,dzbildplus=true,short=1,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Ratgeber (https://www.bild.de/rssfeeds/vw-ratgeber/vw-ratgeber-16729002,dzbildplus=true,short=1,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Auto (https://www.bild.de/rssfeeds/vw-auto/vw-auto-16728202,dzbildplus=true,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Digital (https://www.bild.de/rssfeeds/vw-digital/vw-digital-16728788,dzbildplus=true,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Spiele (https://www.bild.de/rssfeeds/vw-spiele/vw-spiele-16729814,dzbildplus=true,short=1,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Leserreporter 1414 (https://www.bild.de/rssfeeds/vw-news-leserreporter/vw-news-leserreporter-16730656,dzbildplus=true,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Digital (https://www.bild.de/rssfeeds/vw-digital/vw-digital-16728788,dzbildplus=true,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
- Newsticker (https://www.bild.de/rssfeeds/vw-newsticker/vw-newsticker-17052052,dzbildplus=true,n=10,sort=1,teaserbildmobil=false,view=rss2.bild.xml)
TAZ
- Politik (http://taz.de/!p4615;rss/)
- Deutschland (http://taz.de/!p4616;rss/)
- Öko (http://taz.de/!p4610;rss/)
- Gesellschaft (http://taz.de/!p4611;rss/)
- Kultur (http://taz.de/!p4639;rss/)
- Sport (http://taz.de/!p4646;rss/)
- Berlin (http://taz.de/!p4649;rss/)
- Nord (http://taz.de/!p4650;rss/)
- Wahrheit (http://taz.de/!p4644;rss/)
Tagesspiegel
- Home (https://www.tagesspiegel.de/contentexport/feed/home)
- Politik (https://www.tagesspiegel.de/contentexport/feed/politik)
- Berlin (https://www.tagesspiegel.de/contentexport/feed/berlin)
- Queerspiegel (https://www.tagesspiegel.de/contentexport/feed/queerspiegel)
- Wirtschaft (https://www.tagesspiegel.de/contentexport/feed/wirtschaft)
- Sport (https://www.tagesspiegel.de/contentexport/feed/sport)
- Kultur (https://www.tagesspiegel.de/contentexport/feed/kultur)
- Weltspiegel (https://www.tagesspiegel.de/contentexport/feed/weltspiegel)
- Meinung (https://www.tagesspiegel.de/contentexport/feed/meinung)
- Medien (https://www.tagesspiegel.de/contentexport/feed/medien)
- Wissen (https://www.tagesspiegel.de/contentexport/feed/wissen)
Bundestag
- Aktuelle Themen (https://www.bundestag.de/static/appdata/includes/rss/aktuellethemen.rss)
- Pressemitteilungen (https://www.bundestag.de/static/appdata/includes/rss/pressemitteilungen.rss)
- hib (https://www.bundestag.de/static/appdata/includes/rss/hib.rss)
- Wissenschaftliche Dienste (https://www.bundestag.de/static/appdata/includes/rss/wissenschaftlichedienste.rss)
- Drucksachen (https://www.bundestag.de/static/appdata/includes/rss/drucksachen.rss)
- Plenarprotokolle (https://www.bundestag.de/static/appdata/includes/rss/plenarprotokolle.rss)
- Tagesordnungen (https://www.bundestag.de/static/appdata/includes/rss/tagesordnungen.rss)
- Arbeit und Soziales (https://www.bundestag.de/static/appdata/includes/rss/arbeitsoziales.rss)
- Auswärtiges (https://www.bundestag.de/static/appdata/includes/rss/auswaertiges.rss)
- Bildung (https://www.bundestag.de/static/appdata/includes/rss/bildung.rss)
- Digitale Agenda (https://www.bundestag.de/static/appdata/includes/rss/digitaleagenda.rss)
- Landwirtschaft (https://www.bundestag.de/static/appdata/includes/rss/landwirtschafternaehrung.rss)
- EU (https://www.bundestag.de/static/appdata/includes/rss/eu.rss)
- Familie (https://www.bundestag.de/static/appdata/includes/rss/familie.rss)
- Finanzen (https://www.bundestag.de/static/appdata/includes/rss/finanzen.rss)
- Gesundheit (https://www.bundestag.de/static/appdata/includes/rss/gesundheit.rss)
- Haushalt (https://www.bundestag.de/static/appdata/includes/rss/haushalt.rss)
- Inneres (https://www.bundestag.de/static/appdata/includes/rss/inneres.rss)
- Kultur (https://www.bundestag.de/static/appdata/includes/rss/kultur.rss)
- Kulturgeschichte (https://www.bundestag.de/static/appdata/includes/rss/kulturgeschichte.rss)
- Menschenrechte (https://www.bundestag.de/static/appdata/includes/rss/menschenrechte.rss)
- Petitionen (https://www.bundestag.de/static/appdata/includes/rss/petitionen.rss)
- Recht (https://www.bundestag.de/static/appdata/includes/rss/recht.rss)
- Sport (https://www.bundestag.de/static/appdata/includes/rss/sport.rss)
- Tourismus (https://www.bundestag.de/static/appdata/includes/rss/tourismus.rss)
- Umwelt (https://www.bundestag.de/static/appdata/includes/rss/umwelt.rss)
- Verkehr (https://www.bundestag.de/static/appdata/includes/rss/verkehr.rss)
- Verteidigung (https://www.bundestag.de/static/appdata/includes/rss/verteidigung.rss)
- Wahlprüfung (https://www.bundestag.de/static/appdata/includes/rss/wahlpruefung.rss)
- Wirtschaft (https://www.bundestag.de/static/appdata/includes/rss/wirtschaft.rss)
- Entwicklung (https://www.bundestag.de/static/appdata/includes/rss/entwicklung.rss)
Presseportal
- Presseportal allgemein (https://www.presseportal.de/rss/presseportal.rss2)
- Auto / Verkehr (https://www.presseportal.de/rss/auto-verkehr.rss2)
- Bau (https://www.presseportal.de/rss/bau-immobilien.rss2)
- Fashion / Beauty (https://www.presseportal.de/rss/fashion-beauty.rss2)
- Finanzen (https://www.presseportal.de/rss/finanzen.rss2)
- Gesundheit (https://www.presseportal.de/rss/gesundheit-medizin.rss2)
- Handel (https://www.presseportal.de/rss/handel.rss2)
- Medien (https://www.presseportal.de/rss/medien-kultur.rss2)
- Netzwelt (https://www.presseportal.de/rss/netzwelt.rss2)
- Panorama (https://www.presseportal.de/rss/panorama.rss2)
- People (https://www.presseportal.de/rss/people.rss2)
- Politik (https://www.presseportal.de/rss/politik.rss2)
- Presseschau (https://www.presseportal.de/rss/presseschau.rss2)
- Soziales (https://www.presseportal.de/rss/soziales.rss2)
- Sport (https://www.presseportal.de/rss/sport.rss2)
- Tourismus (https://www.presseportal.de/rss/tourismus-urlaub.rss2)
- Umwelt (https://www.presseportal.de/rss/umwelt.rss2)
- Wirtschaft (https://www.presseportal.de/rss/wirtschaft.rss2)
- Wissen (https://www.presseportal.de/rss/wissen-bildung.rss2)
BMWi
- kompakt (https://www.bmwi.de/SiteGlobals/BMWI/Functions/RSSFeed/DE/RSSFeed-Kompakt.xml)
- Pressemitteilungen (https://www.bmwi.de/SiteGlobals/BMWI/Functions/RSSFeed/DE/RSSFeed-Pressemitteilung.xml)
Zeit
- Startseite (http://newsfeed.zeit.de/index)
- Politik (http://newsfeed.zeit.de/politik/index)
- Wirtschaft (http://newsfeed.zeit.de/wirtschaft/index)
- Gesellschaft (http://newsfeed.zeit.de/gesellschaft/index)
- Kultur (http://newsfeed.zeit.de/kultur/index)
- Wissen (http://newsfeed.zeit.de/wissen/index)
- Digital (http://newsfeed.zeit.de/digital/index)
- Campus (http://newsfeed.zeit.de/campus/index)
- Arbeit (http://newsfeed.zeit.de/arbeit/index)
- Zeit Magazin (http://newsfeed.zeit.de/zeit-magazin/index)
- Entdecken (http://newsfeed.zeit.de/entdecken/index)
- Mobilität (http://newsfeed.zeit.de/mobilitaet/index)
- Sport (http://newsfeed.zeit.de/sport/index)
- Kultur (http://newsfeed.zeit.de/kultur/index)
- All (http://newsfeed.zeit.de/all)
Tagesschau
- komplett (http://www.tagesschau.de/xml/rss2)
Bei der zugrundeliegenden Datenbank handelt es sich um den MySQL Ableger MariaDB.
Tabelle: article
In dieser Tabelle werden sämtliche Artikel erfasst.
Spaltenname | Data-Type | Kommentar |
---|---|---|
ID | int | |
publisher | varchar | Die Quelle die den Artikel veröffentlicht hat |
articlePublisherId | varchar | Eindeutige ID, die jeder Artikel vom publisher bekommt. Haben zwei Artikel in der Datenbank hier den gleichen Wert handelt es sich um den gleichen Artikel, der mehrfach veröffentlicht wurde |
url | varchar | URL unter der der vollständige Artikel gefunden werden kann. |
ressort | varchar | Ressort in dem der Artikel veröffentlicht wurde. |
publishdate | datetime | Veröffentlichungszeitpunkt |
fetchdate | datetime | Zeitpunkt, an dem der Artikel in die Datenbank importiert wurde. |
location | mediumtext | Der Veröffentlichungort des Artikels (falls vorhanden) |
headline | varchar | Überschrift des Artikels |
shorttext | mediumtext | Kurzzusammenfassung des Artikels, der in dem RSS-Feed mit veröffentlicht wurde. |
articletext | longtext | Vollständiger Text des Artikels (aktuell nicht benutzt) |
imageurl | varchar | URL des Bildes. |
rawhtml | longtext | Aktuell nicht in Verwendung |
View: uniqueArticle
In dieser View wird jeder Artikel genau ein mal gezeigt.
Generierendes SQL: select * from RWebscraper.article where RWebscraper.article.id in (select uniqueArticleId.id from RWebscraper.uniqueArticleId)
Spaltenname | Data-Type | Kommentar |
---|---|---|
ID | int | |
publisher | varchar | Die Quelle die den Artikel veröffentlicht hat |
articlePublisherId | varchar | Eindeutige ID, die jeder Artikel vom publisher bekommt. Haben zwei Artikel in der Datenbank hier den gleichen Wert handelt es sich um den gleichen Artikel, der mehrfach veröffentlicht wurde |
url | varchar | URL unter der der vollständige Artikel gefunden werden kann. |
ressort | varchar | Ressort in dem der Artikel veröffentlicht wurde. |
publishdate | datetime | Veröffentlichungszeitpunkt |
fetchdate | datetime | Zeitpunkt, an dem der Artikel in die Datenbank importiert wurde. |
location | mediumtext | Der Veröffentlichungort des Artikels (falls vorhanden) |
headline | varchar | Überschrift des Artikels |
shorttext | mediumtext | Kurzzusammenfassung des Artikels, der in dem RSS-Feed mit veröffentlicht wurde. |
articletext | longtext | Vollständiger Text des Artikels (aktuell nicht in Verwendung) |
imageurl | varchar | URL des Bildes. |
rawhtml | longtext | Aktuell nicht in Verwendung |
View: uniqueArticleFiltered
In dieser View wird jeder Artikel genau ein mal gezeigt, wobei sämtliche NewsFeeds ausgeschlossen sind, da diese bei Analysen auf Ressorts ungeeignet sind.
Spaltenname | Data-Type | Kommentar |
---|---|---|
ID | int | |
publisher | varchar | Die Quelle die den Artikel veröffentlicht hat. |
articlePublisherId | varchar | Eindeutige ID, die jeder Artikel vom publisher bekommt. Haben zwei Artikel in der Datenbank hier den gleichen Wert handelt es sich um den gleichen Artikel, der mehrfach veröffentlicht wurde |
url | varchar | URL unter der der vollständige Artikel gefunden werden kann. |
ressort | varchar | Ressort in dem der Artikel veröffentlicht wurde. |
publishdate | datetime | Veröffentlichungszeitpunkt |
fetchdate | datetime | Zeitpunkt, an dem der Artikel in die Datenbank importiert wurde. |
location | mediumtext | Der Veröffentlichungort des Artikels (falls vorhanden) |
headline | varchar | Überschrift des Artikels |
shorttext | mediumtext | Kurzzusammenfassung des Artikels, der in dem RSS-Feed mit veröffentlicht wurde. |
articletext | longtext | Vollständiger Text des Artikels (aktuell nicht in Verwendung) |
imageurl | varchar | URL des Bildes. |
rawhtml | longtext | Aktuell nicht in Verwendung |
View: uniqueArticleId
In dieser View werden alle articlePublisherIds gezeigt.
Generierendes SQL: select RWebscraper.article.articlePublisherId AS articlePublisherId,max(RWebscraper.article.id) AS id from RWebscraper.article group by RWebscraper.article.articlePublisherId
Spaltenname | Data-Type | Kommentar |
---|---|---|
id | int | |
articlePublisherId | varchar | Eindeutige ID, die jeder Artikel vom publisher bekommt. Haben zwei Artikel in der Datenbank hier den gleichen Wert handelt es sich um den gleichen Artikel, der mehrfach veröffentlicht wurde. |
View: uniqueArticleIdFiltered
In dieser View werden alle articlePublisherIds gezeigt, die nicht nur in einem NewsFeed vorkommen.
Generierendes SQL: select RWebscraper.article.articlePublisherId AS articlePublisherId,max(RWebscraper.article.id) AS id from RWebscraper.article where (not((RWebscraper.article.publisher,RWebscraper.article.ressort) in (select RWebscraper.excludedRessorts.publisher,RWebscraper.excludedRessorts.ressort from RWebscraper.excludedRessorts))) group by RWebscraper.article.articlePublisherId
Spaltenname | Data-Type | Kommentar |
---|---|---|
id | int | |
articlePublisherId | varchar | Eindeutige ID, die jeder Artikel vom publisher bekommt. Haben zwei Artikel in der Datenbank hier den gleichen Wert handelt es sich um den gleichen Artikel, der mehrfach veröffentlicht wurde. |
Tabelle: author
In dieser Tabelle werden alle vorhanden Informationen zu den Autoren erfasst.
Spaltenname | Data-Type | Kommentar |
---|---|---|
id | int | |
name | mediumtext | Name des Autors |
publisher | mediumtext | Zeitung unter der der Autor veröffentlicht |
ressort | mediumtext | Ressort in dem der Autor veröffentlicht |
Tabelle: articleToAuthor
Tabelle zur Realisierung der m:n Verbindung zwischen Artikeln und Autoren
Spaltenname | Data-Type | Kommentar |
---|---|---|
articleId | int | ID des Artikels |
authorId | int | ID des Autors |
Tabelle: excludedRessorts
Tabelle, die die Ressorts auflistet, die bei den Filtered views ausgeschlossen werden.
Spaltenname | Data-Type | Kommentar |
---|---|---|
publisher | varchar | Medienhaus, dessen NewsFeed ausgeschlossen werden soll. |
ressort | varchar | Name des Ressort(= Name des Feeds), das ausgeschlossen werden soll. |
Tabelle: category
Tabelle die alle Kategorien beinhaltet, in die Artikel eingeordnet wurden. Bemerkung: Nicht alle Zeitung veröffentlichen Kategorien zu ihren Artikeln.
Spaltenname | Data-Type | Kommentar |
---|---|---|
id | int | |
category | mediumtext | Kategorie in die der Artikel eingeordnet wurde. |
Tabelle: articleToCategory
Tabelle zur Realisierung der m:n Verbindung zwischen Kategorien und Autoren
Spaltenname | Data-Type | Kommentar |
---|---|---|
articleId | int | ID des Artikels |
categoryId | int | ID des Autors |
Tabelle: metadata
Tabelle zur Einbund von Informationen, die nur wenige Zeitungen veröffentlichen. Hierbei wird das Prinzip einer Non-SQL Tabelle emuliert.
Spaltenname | Data-Type | Kommentar |
---|---|---|
id | int | |
articleId | int | Fremdschlüssel auf den Artikel |
metakey | varchar | Information, zu der ein Wert zu einem Artikel gespeichert werden soll. |
metavalue | mediumtext | Wert, der zu speichernden Information |
View: countArticle
Die View stellt, da wie viele Artikel von welcher Zeitung sich in der Datenbank befinden.
Generierendes SQL: select count(uniqueArticleFiltered.publisher) AS pubCoun,uniqueArticleFiltered.publisher AS publisher from RWebscraper.uniqueArticleFiltered group by uniqueArticleFiltered.publisher
Spaltenname | Data-Type | Kommentar |
---|---|---|
pubCoun | bigint | Anzahl der Artikel des Medienhauses |
publisher | varchar | Veröffentlicher der Artikel |
View: countArticleAb0111
Die View stellt dar, wie viele Artikel von welcher Zeitung sich in der Datenbank befinden, die nach dem 01.11.2018 veröffentlicht wurden.
Generierendes SQL: select article.publisher AS publisher,count(article.publisher) AS article from RWebscraper.uniqueArticleFiltered article where (article.publishdate > '2018-11-01 00:00:00') group by article.publisher
Spaltenname | Data-Type | Kommentar |
---|---|---|
pubCoun | bigint | Anzahl der Artikel des Medienhauses |
publisher | varchar | Veröffentlicher der Artikel |
View: countVeröffentlichungen
In dieser View wird dargestellt wie oft ein Artikel in einem RSS-Feed veröffentlicht wurde.
Generierendes SQL: select uniqueArticleFiltered.publisher AS publisher,uniqueArticleFiltered.articlePublisherId AS articlePublisherId,count(0) AS Count(*) from RWebscraper.uniqueArticleFiltered group by uniqueArticleFiltered.articlePublisherId,uniqueArticleFiltered.publisher order by count(0) desc
Spaltenname | Data-Type | Kommentar |
---|---|---|
publisher | varchar | Die Quelle die den Artikel veröffentlicht hat. |
articlePublisherId | varchar | Eindeutige ID, die jeder Artikel vom publisher bekommt. Haben zwei Artikel in der Datenbank hier den gleichen Wert handelt es sich um den gleichen Artikel, der mehrfach veröffentlicht wurde. |
Count(*) | bigint | Anzahl, wie oft sich ein Artikel in der Datenbank befindet. |
Sämtliche statistische Auswertungen unserer Daten, die wir Ihnen unter dem Bereich “Datensatz kennenlernen” anbieten, werden nach dem gleichen Schema erstellt:
Für jede Statistik gibt es ein eigenes .R File, dass bei laufzeitintensiven Datenbank-Querys in regelmäßigen Abständen, oder bei einfachen Abfragen zum Zeitpunkt zum Aufruf der entsprechenden Seite ausgeführt wird.
In jedem dieser .R-Skripts wird zunächst eine Verbindung zu unserer Datenbank aufgebaut und danach mit dem Befehl dbSendQuery
die entsprechende Abfrage durchgeführt. Im Folgenden werden die Ergebnisse der Query in ein Data-Frame geladen.
Die so erhaltenen Daten werden mit barplot
bzw. Pie
visualisiert.
Im letzten Schritt wird die Datenbankverbindung wieder geschlossen.
Anzahl an Artikeln
Das Barplot-Diagramm zeigt, wie viele einzigartige Artikel sich aus dem November 2018 in der Datenbank befinden, gruppiert nach der veröffentlichenden Quelle.
Generierendes SQL: SELECT article.publisher,count(article.publisher) FROM uniqueArticle as article where publishdate>"2018-11-01 00:00:00" and publishdate<"2018-12-01 00:00:00" GROUP by article.publisher
Anteil der Medienhäuser
Das Kreisdiagramm zeigt das Verhältnis der Anzahl der Artikel, die sich aus dem November 2018 in der Datenbank befinden, gruppiert nach der veröffentlichenden Quelle.
Generierendes SQL: SELECT article.publisher,count(article.publisher) FROM uniqueArticle as article where publishdate>"2018-11-01 00:00:00" and publishdate<"2018-12-01 00:00:00" GROUP by article.publisher
Anzahl der Artikel pro Ressort
Das Barplot-Diagramm zeigt, wie viel Prozent aller Artikel einer Zeitung im gewählten Ressort veröffentlicht wurden.
Generierendes SQL: SELECT count(article.ressort)/publisherCount.pubCoun, article.publisher FROM uniqueArticle as article, countArticle as publisherCount where (article.ressort="Politik") and article.publisher=publisherCount.publisher and publishdate>"2018-11-01 00:00:00" GROUP by article.publisher, article.ressort
Anzahl an Wörtern
Mithilfe eines Python-Scripts werden alle 12 Stunden für alle veröffentlichenden Stellen je 1000 zufällige Artikel ausgewählt. Von diesen ausgewählten Artikeln wird die Anzahl der verschiedenen Wörter ermittelt.
Über die Option Auswahl
kann gewählt werden, ob nur Überschriften, nur die Artikeltexte oder beides (Summe) dargestellt werden soll.
Über die Option Darstellung
kann gewählt werden, ob der Anteil verschiedener Wörter in Relation zur Gesamtzahl der Wörter oder die absolute Anzahl dargestellt werden soll.
Für die Berechnung wird zunächst für jede veröffentlichende Stelle 1000 zufällige Überschriften & Artikeltexte ausgewählt. Alle darin vorkommenden Wörter werden danach mithilfe der Python-Library spacy
gestemmt, d.h. in ihre Stammform reduziert.
Bei diesen überführten Wörtern werden danach Duplikate entfernt, so lassen sich die Anzahl der verschiedenen vorkommenden Wörter bestimmen. Je nach Wahl der Option Darstellung
wird diese Zahl noch durch die Gesamtzahl der Wörter in den ausgewählten Texten diviert.
Ein höherer Wert in der relativen Darstellung
bedeutet, dass die Anzahl an verschiedenen Wörtern an der Gesamtzahl der Wörter geringer ist, der Wortschatz ist damit also insgesamt kleiner als bei einem niedrigen Wert.
Die Berechnung erfolgt für alle veröffentlichenden Stellen unabhängig voneinander, eine Beeinflussung ist hier nicht gegeben.
Artikelthemen
Bei der SZ und der Bild-Zeitung erhält ein Artikel eine beliebige Zahl von Themen, denen dieser Artikel zugeordnet ist. Hier werden häufig verkommende Themen in einer Wordcloud zusammengefasst. Das bedeutet, dass es zu den dargestellten Themen eine Vielzahl von Artikeln ist.
Mit folgender SQL-Query werden die Kategorien selektiert:
SELECT cat.category FROM article art left join articleToCategory artcat on art.id = artcat.articleId left join category cat on artcat.categoryId = cat.id
Aus der so entstandenen Liste der Themen werden zunächst die nachfolgend Themen entfernt, da es sich hier größtenteils um zeitungsspezifische Begriffe handelt, die keine Aussage über den damit verbundenen Artikel haben:
null
, süddeutsche
, faz
, spiegel
, welt
, bild
, bams
,taz
, tagesspiegel
, fb
, regional
, news
, kommentare
, liveblog
, vorschau
, panorama
, ratgeber
, ticker
, …
Ausgehend von den übrig gebliebenen Begriffen wird mit dem R-Package „wordcloud“ die Visualisierung gerändert. Hier werden die 100 Themen, die am häufigsten vorkommen berücksichtigt.
Alle 12 Stunden wird im Hintergrund mithilfe der glmnet-library eine Klassifizierung der Daten vorgenommen. Dabei wird anhand des erfassten Shorttextes auf die veröffentlichende Stelle geschlossen. Es wird ein multi-nomialer Response-Typ verwendet, da alle Publisher gleichzeitig klassifiziert werden. Der Alpha-Parameter wurde dabei auf 1 gesetzt, dadurch wird lediglich die Lasso-Bestrafung verwendet und die Ridge-Bestrafung wird verworfen.
Anschließend wird die predict-Funktion verwendet, um für jeden Publisher/jedes Ressort herauszufinden, welche Wörter einen hohen Koeffzienten haben (und damit einen hohen Indikator darstellen).
Die berechneten Koeffizienten werden dann mithilfe einer Wordcloud dargestellt. Dafür werden zusätzlich die Koeffizienten noch logarithmiert, da bei einigen Publishern die Koeffizienten stark verschieden sind und sonst Wörter mit geringen Koeffizienten nicht angezeigt werden würden.
Trends
Suchbegriffe
Mithilfe von Datum
kann ein Datumsbereich für die Analyse ausgewählt werden. Dabei werden alle Artikel ab 0:00 Uhr des Starttages bis 23:59 des Endtages einbezogen.
Zusätzlich können Publishers
ausgewählt werden. Wenn kein Publisher ausgewählt wird, werden alle Zeitungen verwendet.
Geben Sie im Textfeld Trendthema
einen Suchbegriff Ihrer Wahl ein. Z.B. Covid oder Weihnachten. Die Analyse zeigt an, wie häufig der Suchbegriff in Artkeln vorkommt. Mehrere Suchwörter können über ein ,
getrennt eingegeben werden. Hierbei werden alle Artikel dargestellt, in denen zumindest einer der Suchbegriffe vorhanden ist.
Über die Auswahl Gruppieren nach
kann ausgewählt werden, wie Artikel gruppiert werden sollen. Standardmäßig wird der Artikel nach Tagen gruppiert, weiterhin ist eine Gruppierung nach Wochen (hierbei wird jeweils der Montag der Woche verwendet), Monat (1. jeden Monats), Wochentag (0 für Montag, 6 für Sonntag), Stunde (Datum + Uhrzeit), Stunde pro Tag (0 - 24 Uhr).
Des Weiteren kann der verwendete Zeitpunkt unterschieden werden.Hierbei stellt Abruf
den Zeitpunkt des Erfassens durch unsere Systeme dar, Veröffentlichung
den durch die Zeitungen angegebene Zeitpunkt. Teilweise weichen die beiden Zeitpunkte um mehrere Stunden ab, insbesondere, wenn Artikel, welche in der Print-Ausgabe einer Zeitung erscheinen bereits am Abend eines Tages für den Morgen des nächsten Tages vordatiert werden.
Die Option y-Achse
sorgt standardmäßig dafür, dass die blanke Anzahl an Artikeln mit Suchbegriff angezeigt wird. Zusätzlich wird eine relative Darstellung angeboten. Die Option Aufmerksamkeit im Vergleich zu allen anderen Themen
zeigt wie viel Prozent der Berichterstattung dem Thema gewidment worden ist. Also: Wie viel Prozent der Artikel der SZ im Dezember hatten Weihnachten als Thema.
In der Auswahl Nach Publishern trennen
wird ausgewählt, ob alle Zeitungen aufaddiert werden sollen und gesammelt dargestellt werden sollen, oder jede Zeitung einzeln dargestellt werden soll.
Trends
Finder
Zunächst werden für jeden Tag die 1000 am häufigsten vorkommenden Wörter bestimmt, dabei wird die Überschrift und der Shorttext mit einbezogen. Diese Wörter werden über alle Tage hinweg vereinigt, sodass eine Liste mit allen Wörtern, die an min. 1 Tag in den 1000 häufigsten Wörtern vorkommen, vorhanden ist.
Danach wird für jedes ausgewählte Wort die absolute Häufigkeit über alle Tage und die durchschnittliche Häufigkeit pro Tag bestimmt.
Für jeden Tag wird geprüft, ob das gewählte Wort an diesem Tag mindestens 10mal so oft wie im Durschnitt pro Tag vorkommt. Wörter, welche dieses Kriterium erfüllen werden gespeichert, dabei wird ebenfalls gespeichert, an welchem Tag dieses Wort ‘getrended’ ist.
Dieser Vorgang wird im Hintergrund alle 12 Stunden ausgeführt. Bei Auswahl eines Datums auf der Weboberfläche werden die gespeicherten Wörter für diesen Tag ausgelesen und, falls vorhanden, ausgegeben.
Trends
Analyse
Zunächst werden alle Artikel für den ausgewählten Tag aus der Datenbank geladen.
Die Artikel werden in 2 Teile unterteilt: Artikel, welche den eingegeben Filter
in Überschrift oder Shorttext enthalten und Artikel, welche den Filter nicht enthalten.
Wörter, welche insgesamt nur sehr selten vorkommen werden entfernt, da diese das Ergebnis sonst verfälschen würden.
Im nächsten Schritt wird mithilfe der glmnet-library ein binomiales Modell erstellt, dabei wird lediglich die Lasso-Bestrafung verwendet. Das Modell findet Wörter, welche einen hohen Koeffizienten haben und daher auf den gesuchten Filter schließen.
Bevor die gefundenen Wörter mithilfe einer Wordcloud dargestellt werden können, werden die Koeffizienten zunächst mit dem Faktor 100 000 multipliziert. Dies verhindert, dass die Wordcloud-Library Wörter mit Koeffizienten zwischen 0 und 1 nicht darstellt. Schließlich werden die Koeffizienten noch mithilfe einer Logarithmus-Funktion gestaucht, ohne diese Stauchung haben einige Wörter (vorallem solche, die den Filter direkt enthalten) einen extrem hohen Koeffizienten, wohingegen inhaltlich ähnliche Wörter einen niedrigen Koeffizienten haben und dadurch nicht mehr/nur sehr klein in der Wordcloud dargestellt werden.
Impressum
Angaben gemäß § 5 TMG
Raphael Schönball
Ruezstraße 1
88410 Bad Wurzach
Kontakt
E-Mail: contact@schoenball.com
Haftung für Inhalte
Als Diensteanbieter sind wir gemäß § 7 Abs.1 TMG für eigene Inhalte auf diesen Seiten nach den allgemeinen Gesetzen verantwortlich. Nach §§ 8 bis 10 TMG sind wir als Diensteanbieter jedoch nicht verpflichtet, übermittelte oder gespeicherte fremde Informationen zu überwachen oder nach Umständen zu forschen, die auf eine rechtswidrige Tätigkeit hinweisen.
Verpflichtungen zur Entfernung oder Sperrung der Nutzung von Informationen nach den allgemeinen Gesetzen bleiben hiervon unberührt. Eine diesbezügliche Haftung ist jedoch erst ab dem Zeitpunkt der Kenntnis einer konkreten Rechtsverletzung möglich. Bei Bekanntwerden von entsprechenden Rechtsverletzungen werden wir diese Inhalte umgehend entfernen.
Haftung für Links
Unser Angebot enthält Links zu externen Websites Dritter, auf deren Inhalte wir keinen Einfluss haben.
Deshalb können wir für diese fremden Inhalte auch keine Gewähr übernehmen. Für die Inhalte der verlinkten Seiten ist stets der jeweilige Anbieter oder Betreiber der Seiten verantwortlich. Die verlinkten Seiten wurden zum Zeitpunkt der Verlinkung auf mögliche Rechtsverstöße überprüft. Rechtswidrige Inhalte waren zum Zeitpunkt der Verlinkung nicht erkennbar.
Eine permanente inhaltliche Kontrolle der verlinkten Seiten ist jedoch ohne konkrete Anhaltspunkte einer Rechtsverletzung nicht zumutbar. Bei Bekanntwerden von Rechtsverletzungen werden wir derartige Links umgehend entfernen.
Urheberrecht
Die durch die Seitenbetreiber erstellten Inhalte und Werke auf diesen Seiten unterliegen dem deutschen Urheberrecht. Die Vervielfältigung, Bearbeitung, Verbreitung und jede Art der Verwertung außerhalb der Grenzen des Urheberrechtes bedürfen der schriftlichen Zustimmung des jeweiligen Autors bzw. Erstellers.
Downloads und Kopien dieser Seite sind nur für den privaten, nicht kommerziellen Gebrauch gestattet.
Soweit die Inhalte auf dieser Seite nicht vom Betreiber erstellt wurden, werden die Urheberrechte Dritter beachtet. Insbesondere werden Inhalte Dritter als solche gekennzeichnet. Sollten Sie trotzdem auf eine Urheberrechtsverletzung aufmerksam werden, bitten wir um einen entsprechenden Hinweis. Bei Bekanntwerden von Rechtsverletzungen werden wir derartige Inhalte umgehend entfernen.
Datenschutzerklärung
1. Datenschutz auf einen Blick
Allgemeine Hinweise
Die folgenden Hinweise geben einen einfachen Überblick darüber, was mit Ihren personenbezogenen Daten passiert, wenn Sie unsere Website besuchen. Personenbezogene Daten sind alle Daten, mit denen Sie persönlich identifiziert werden können. Ausführliche Informationen zum Thema Datenschutz entnehmen Sie unserer unter diesem Text aufgeführten Datenschutzerklärung.
Datenerfassung auf unserer Website
Wer ist verantwortlich für die Datenerfassung auf dieser Website?
Die Datenverarbeitung auf dieser Website erfolgt durch den Websitebetreiber. Dessen Kontaktdaten können Sie dem Impressum dieser Website entnehmen.
Wie erfassen wir Ihre Daten?
Ihre Daten werden zum einen dadurch erhoben, dass Sie uns diese mitteilen. Hierbei kann es sich z.B. um Daten handeln, die Sie in ein Kontaktformular eingeben.
Andere Daten werden automatisch beim Besuch der Website durch unsere IT-Systeme erfasst. Das sind vor allem technische Daten (z.B. Internetbrowser, Betriebssystem oder Uhrzeit des Seitenaufrufs). Die Erfassung dieser Daten erfolgt automatisch, sobald Sie unsere Website betreten.
Wofür nutzen wir Ihre Daten?
Ein Teil der Daten wird erhoben, um eine fehlerfreie Bereitstellung der Website zu gewährleisten. Andere Daten können zur Analyse Ihres Nutzerverhaltens verwendet werden.
Welche Rechte haben Sie bezüglich Ihrer Daten?
Sie haben jederzeit das Recht unentgeltlich Auskunft über Herkunft, Empfänger und Zweck Ihrer gespeicherten personenbezogenen Daten zu erhalten. Sie haben außerdem ein Recht, die Berichtigung, Sperrung oder Löschung dieser Daten zu verlangen. Hierzu sowie zu weiteren Fragen zum Thema Datenschutz können Sie sich jederzeit unter der im Impressum angegebenen Adresse an uns wenden. Des Weiteren steht Ihnen ein Beschwerderecht bei der zuständigen Aufsichtsbehörde zu.
Außerdem haben Sie das Recht, unter bestimmten Umständen die Einschränkung der Verarbeitung Ihrer personenbezogenen Daten zu verlangen. Details hierzu entnehmen Sie der Datenschutzerklärung unter „Recht auf Einschränkung der Verarbeitung“.
2. Allgemeine Hinweise und Pflichtinformationen
Datenschutz
Die Betreiber dieser Seiten nehmen den Schutz Ihrer persönlichen Daten sehr ernst. Wir behandeln Ihre personenbezogenen Daten vertraulich und entsprechend der gesetzlichen Datenschutzvorschriften sowie dieser Datenschutzerklärung.
Wenn Sie diese Website benutzen, werden verschiedene personenbezogene Daten erhoben. Personenbezogene Daten sind Daten, mit denen Sie persönlich identifiziert werden können. Die vorliegende Datenschutzerklärung erläutert, welche Daten wir erheben und wofür wir sie nutzen. Sie erläutert auch, wie und zu welchem Zweck das geschieht.
Wir weisen darauf hin, dass die Datenübertragung im Internet (z.B. bei der Kommunikation per E-Mail) Sicherheitslücken aufweisen kann. Ein lückenloser Schutz der Daten vor dem Zugriff durch Dritte ist nicht möglich.
Hinweis zur verantwortlichen Stelle
Die verantwortliche Stelle für die Datenverarbeitung auf dieser Website ist:
Raphael Schönball
Ruezstraße 1
88410 Bad Wurzach
E-Mail: contact@schoenball.com
Verantwortliche Stelle ist die natürliche oder juristische Person, die allein oder gemeinsam mit anderen über die Zwecke und Mittel der Verarbeitung von personenbezogenen Daten (z.B. Namen, E-Mail-Adressen o. Ä.) entscheidet.
Widerruf Ihrer Einwilligung zur Datenverarbeitung
Viele Datenverarbeitungsvorgänge sind nur mit Ihrer ausdrücklichen Einwilligung möglich. Sie können eine bereits erteilte Einwilligung jederzeit widerrufen. Dazu reicht eine formlose Mitteilung per E-Mail an uns.
Die Rechtmäßigkeit der bis zum Widerruf erfolgten Datenverarbeitung bleibt vom Widerruf unberührt. Widerspruchsrecht gegen die Datenerhebung in besonderen Fällen sowie gegen
Direktwerbung (Art. 21 DSGVO)
**Wenn die Datenverarbeitung auf Grundlage von Art. 6 Abs. 1 lit. e oder f DSGVO erfolgt, haben Sie jederzeit das Recht, aus Gründen, die sich aus Ihrer besonderen Situation ergeben, gegen die Verarbeitung Ihrer personenbezogenen Daten Widerspruch einzulegen; dies gilt auch für ein auf diese Bestimmungen gestütztes Profiling. Die jeweilige Rechtsgrundlage, auf denen eine Verarbeitung beruht, entnehmen Sie dieser Datenschutzerklärung. Wenn Sie Widerspruch einlegen, werden wir Ihre betroffenen personenbezogenen Daten nicht mehr verarbeiten, es sei denn, wir können zwingende schutzwürdige Gründe für die Verarbeitung nachweisen, die Ihre Interessen, Rechte und Freiheiten überwiegen oder die Verarbeitung dient der Geltendmachung, Ausübung oder Verteidigung von Rechtsansprüchen
(Widerspruch nach Art. 21 Abs. 1 DSGVO).
Werden Ihre personenbezogenen Daten verarbeitet, um Direktwerbung zu betreiben, so haben Sie das Recht, jederzeit Widerspruch gegen die Verarbeitung Sie betreffender personenbezogener Daten zum Zwecke derartiger Werbung einzulegen; dies gilt auch für das Profiling, soweit es mit solcher Direktwerbung in Verbindung steht. Wenn Sie widersprechen, werden Ihre personenbezogenen Daten anschließend nicht mehr zum Zwecke der Direktwerbung verwendet
(Widerspruch nach Art. 21 Abs. 2 DSGVO).**
Beschwerderecht bei der zuständigen Aufsichtsbehörde
Im Falle von Verstößen gegen die DSGVO steht den Betroffenen ein Beschwerderecht bei einer Aufsichtsbehörde, insbesondere in dem Mitgliedstaat ihres gewöhnlichen Aufenthalts, ihres Arbeitsplatzes oder des Orts des mutmaßlichen Verstoßes zu. Das Beschwerderecht besteht unbeschadet anderweitiger verwaltungsrechtlicher oder gerichtlicher Rechtsbehelfe.
Recht auf Datenübertragbarkeit
Sie haben das Recht, Daten, die wir auf Grundlage Ihrer Einwilligung oder in Erfüllung eines Vertrags automatisiert verarbeiten, an sich oder an einen Dritten in einem gängigen, maschinenlesbaren Format aushändigen zu lassen. Sofern Sie die direkte Übertragung der Daten an einen anderen Verantwortlichen verlangen, erfolgt dies nur, soweit es technisch machbar ist.
SSL- bzw. TLS-Verschlüsselung
Diese Seite nutzt aus Sicherheitsgründen und zum Schutz der Übertragung vertraulicher Inhalte, wie zum Beispiel Bestellungen oder Anfragen, die Sie an uns als Seitenbetreiber senden, eine SSL-bzw. TLS-Verschlüsselung.
Eine verschlüsselte Verbindung erkennen Sie daran, dass die Adresszeile des Browsers von “http://” auf “https://” wechselt und an dem Schloss-Symbol in Ihrer Browserzeile.
Wenn die SSL- bzw. TLS-Verschlüsselung aktiviert ist, können die Daten, die Sie an uns übermitteln, nicht von Dritten mitgelesen werden.
Auskunft, Sperrung, Löschung und Berichtigung
Sie haben im Rahmen der geltenden gesetzlichen Bestimmungen jederzeit das Recht auf unentgeltliche Auskunft über Ihre gespeicherten personenbezogenen Daten, deren Herkunft und Empfänger und den Zweck der Datenverarbeitung und ggf. ein Recht auf Berichtigung, Sperrung oder Löschung dieser Daten.
Hierzu sowie zu weiteren Fragen zum Thema personenbezogene Daten können Sie sich jederzeit unter der im Impressum angegebenen Adresse an uns wenden.
Recht auf Einschränkung der Verarbeitung
Sie haben das Recht, die Einschränkung der Verarbeitung Ihrer personenbezogenen Daten zu verlangen.
Hierzu können Sie sich jederzeit unter der im Impressum angegebenen Adresse an uns wenden.
Das Recht auf Einschränkung der Verarbeitung besteht in folgenden Fällen:
Wenn Sie die Richtigkeit Ihrer bei uns gespeicherten personenbezogenen Daten bestreiten, benötigen wir in der Regel Zeit, um dies zu überprüfen. Für die Dauer der Prüfung haben Sie das Recht, die Einschränkung der Verarbeitung Ihrer personenbezogenen Daten zu verlangen.
Wenn die Verarbeitung Ihrer personenbezogenen Daten unrechtmäßig geschah / geschieht, können Sie statt der Löschung die Einschränkung der Datenverarbeitung verlangen. Wenn wir Ihre personenbezogenen Daten nicht mehr benötigen, Sie sie jedoch zur Ausübung, Verteidigung oder Geltendmachung von Rechtsansprüchen benötigen, haben Sie das Recht, statt der Löschung die Einschränkung der Verarbeitung Ihrer personenbezogenen Daten zu verlangen.
Wenn Sie einen Widerspruch nach Art. 21 Abs. 1 DSGVO eingelegt haben, muss eine Abwägung zwischen Ihren und unseren Interessen vorgenommen werden. Solange noch nicht feststeht, wessen Interessen überwiegen, haben Sie das Recht, die Einschränkung der Verarbeitung Ihrer personenbezogenen Daten zu verlangen.
Wenn Sie die Verarbeitung Ihrer personenbezogenen Daten eingeschränkt haben, dürfen diese Daten – von ihrer Speicherung abgesehen – nur mit Ihrer Einwilligung oder zur Geltendmachung, Ausübung oder Verteidigung von Rechtsansprüchen oder zum Schutz der Rechte einer anderen natürlichen oder juristischen Person oder aus Gründen eines wichtigen öffentlichen Interesses der Europäischen Union oder eines Mitgliedstaats verarbeitet werden.
3. Datenerfassung auf unserer Website
Server-Log-Dateien
Der Provider der Seiten erhebt und speichert automatisch Informationen in so genannten Server-Log-Dateien, die Ihr Browser automatisch an uns übermittelt. Dies sind:
Browsertyp und Browserversion
verwendetes Betriebssystem
Referrer URL
Hostname des zugreifenden Rechners
Uhrzeit der Serveranfrage
IP-Adresse
Eine Zusammenführung dieser Daten mit anderen Datenquellen wird nicht vorgenommen. Die Erfassung dieser Daten erfolgt auf Grundlage von Art. 6 Abs. 1 lit. f DSGVO. Der Websitebetreiber hat ein berechtigtes Interesse an der technisch fehlerfreien Darstellung und der Optimierung seiner Website – hierzu müssen die Server-Log-Files erfasst werden.
Quelle: eRecht24
Hackerangriff im Dezember 2018
04.01.2019
Uhrzeit | Zeitung | |
---|---|---|
05:25 Uhr | Tagesschau | Bericht von Hackerangriff auf Hunderte deutsche Politiker; Verweis auf einen Bericht vom RBB |
07:17 Uhr | Tagesspiegel | Verweis auf einen Bericht vom RBB |
07:18 Uhr | Presseportal | Veröffentlichung eines Artikels vom RBB |
07:34 Uhr | Bild | |
07:34 Uhr | Zeit | |
07:42 Uhr | Bild | Update des Artikels von 07:34; Jetzt wird neben betroffenen Politikern auch von Personen des öffentlichen Lebens berichtet. |
08:02 Uhr | SZ | |
08:14 Uhr | Spiegel | |
08:24 Uhr | Zeit | Update des Artikels von 07:34 |
09:02 Uhr | Welt | |
09:20 Uhr | Tagesspiegel | Update des Artikels von 07:17; Jetzt wird neben betroffenen Politikern auch von prominenten Personen berichtet. |
09:42 Uhr | Tagesspiegel | Update des Artikels von 09:20; Jetzt wird von Politikern, Prominenten und Künstlern berichtet. |
09:46 Uhr | Presseportal | Veröffentlichung eines Artikels der Rheinischen Post; Hier wird von Journalisten als Hauptbetroffenen berichtet |
10:08 Uhr | Tagesspiegel | Update des Artikels von 10:08 |
Trends
Hackerangriff
Die Ermittlung der Daten für den Zeitstrahl erfolgt manuell. Hierbei wurden neben den Einträgen in der Datenbank auch zum Teil die ganzen Artikel verglichen und ausgewertet. Die Darstellung als Timeline wird unter Verwendung der timevis libary erstellt. Dazu werden die zunächst manuell gefilterten Daten in eine CSV-Datei geschrieben und daraus automatisch dargestellt.
Aufgrund eines Fehlers in der Datenerfassung fehlt die Zeitung FAZ.