Datei Diskussion:Alexa-Rank-Statistik.png

aus Kamelopedia, der wüsten Enzyklopädie
Wechseln zu: Navigation, Suche

Na, CW, kommt jetzt der nächste Versuch der Einflussnahme? Bitte lass uns einfach in Ruhe, dann geht die Kurve auch wieder runter! Danke. Kamillo (Diskussion) 22:59, 28. Feb. 2015 (NNZ)

Du hast leider Recht, die unten folgende Diskussion offenbart die ganze Tragik, wie Statistik aus verfälschender Messmimik durch Eigenwillik-Interpretatorik in ein Ewik-Miesepetrik-Mosaik verwandelt wird. Alexa taugt nur als Schlechte-Laune-Generator für manchen hier, mehr ist nicht dahinter. Kamelurmel (Diskussion) 12:53, 23. Jun. 2017 (NNZ)

Zweifel an der Statistik[bearbeiten]

Als ich in der 10. Klasse war, sollten wir eine Umfage zum Fernsehkonsum machen. Wir haben uns einen Fragebogen überlegt, ihn als Hausaufgabe von möglichst vielen Leuten ausfüllen lassen und dann in der Schule aus den Zahlen Balken- und Tortendiagramme gebastelt – mit einem Sharewareprogramm unter DOS; Excel o.ä. hatte die Schule damals noch nicht. Bei der Auswertung haben wir die Angaben auch so miteinander verknüpft, wie es gar nicht vorgesehen war, und dabei „herausgefunden“, dass Frauen deutlich schlechtere Schulabschlüsse haben und religiöser und älter als Männer sind. Unser Lehrer kommentierte die Grafiken mit den Worten: „Wie sagte Lenin so schön: ‚Traue keiner Statistik, die du nicht selbst gefälscht hast‘? “ – Seitdem bin ich tatsächlich jeder Statistik gegenüber etwas misstrauisch.

Ein Seitenabruf ist eine Sache zwischen dem Rechner, auf dem der Webserver läuft, und dem Rechner, auf dem der Webrowser läuft. Um auf verlässliche Zahlen zu kommen, welcher Rechner mit welchem Rechner kommuniziert, müssten sämtliche Internet-Provider den gesamten Internet-Verkehr überwachen und ggf. noch Deep-Packet-Inspection betreiben, falls mehrere virtuelle Hosts hinter der selben IP-Adresse stecken. Solche Geheimdienst-Befugnisse hat Amazon zum Glück nicht. Woher stammen dann die Zahlen? Wikipedia behauptet, die Zahlen würden mittels eines Trojaners ermittelt, der erstens nur mit Microsoft Internet Explorer zusammenarbeitet und zweitens im deutschsprachigen Raum nicht sehr verbreitet ist. Drittens gibt es viele Leute, die bewusst nicht jeden Scheiß aus nicht-vertrauenswürdigen Quellen installieren und deshalb in der Statistik nicht erfasst werden. Die Zahlen sind folglich nicht repräsentativ.

Davon abgesehen kann es verschiedene Ursachen haben, wenn die Kamelopedia ihr Ranking verschlechtert. Die Kamelopedia muss nicht qualitativ schlechter geworden sein; es können auch neue, interessantere Websites hinzugekommen sein. Oder Websites, die besser beworben werden. Oder das Surf-Verhalten verändert sich komplett; z.B. gibt es ja leider den Trend, immer mehr Zeit auf Facebook und YouTube zu verbringen. Oder die Datenerfassung ist unbrauchbar. Ich finde gar nicht, dass der Trend des Graphen nach unten geht; er geht eher wild hoch und runter. Vielleicht verändert sich die Reichweite besagten Trojaners auch immerzu, weil er mal beworben und mal vor ihm gewarnt wird. Man müsste die Zahlen erstmal mit anderen, ähnlichen Websites vergleichen, z.B. Stupidedia.

Ich habe gerade gesehen, dass die Zahlen von Alexa nicht öffentlich sind, sondern Geld kosten, und finde es ehrlich gesagt schräg, dass du diesem Unternehmen für sein datenschutztechnisch bedenkliches Geschäft auch noch fütterst. -- Sloyment (Diskussion) 03:43, 23. Jun. 2017 (NNZ)

Zweifel an Alexa sind berechtigt. Ganz einfach, weil die Erhebungen nicht repräsentativ sind. Nur: diese Statistik, die für das Bild erhoben wurde, sind regelmäßige Abfragen bei Alexa: eventuelle Fehler von Alexa sind also über einen langen Zeitraum gleich. Da hier nur die Änderungen von Belang sind, können die Fehler von Alexa ignoriert werden, da die Referenz für den abgefragten Wert den gleichen Schwankungen unterliegt, wie die aktuelle Abfrage. Die bisher in der Vergangenheit abgespeicherten und stets aktualisierten Bilder ergeben ebenfalls eine Art Tagebuch, die, weil sie nicht personenbezogen sind, datenschutzrechtlich unbedenklich sind.
Die Abfragen bei Alexa sind kostenfrei, ein jeder kann den aktuellen Wert selbst nachfragen. Nur müsste man das (um so ein schönes Bild zu erzeugen) über einen langen Zeitraum in regelmäßigen Abständen tun, die Ergebnisse kopieren und in eine EXCEL-Datei speichern. Diese EXCEL-Datei könnte bei mir bezogen werden. Sie enthält allerdings neben dem momentanen Rang auch die momentane Aktivität (zum Beispiel unfreundliche Diskussionen oder eben auch diese stillosen News in einer Fäkalsprache.) Diesen bezug müsste ich allerdings vorher entfernen (siehe oben: datenschutzrechtliche Bedenken)
Es ist aber Kamelopedia-typisch, dass der Bote mit der Nachricht identifiziert wird, und wenn es schlechte Nachrichten sind, dann ist auch der Überbringer dieser Nachricht schlecht. Immer wenn das Ranking schlecht wurde, was mir persönlich eher weh tat), dann wurde ich als der Böse bezeichnet, der die Stimmung versaut. Nur leider, leider: Die öffentliche Stimmung ist jedoch nicht von mir und meinen überbrachten Nachrichten abhängig, sondern von den aktuellen Geschehnissen in der Kamelopedia. Und jetzt muss ich sagen, dass mich das Ergebnis gar nicht mehr interessiert. Mir tut nur WiKa leid, dem das ganze Gezänk hier ebenfalls schon aus dem Halse hängt.
Um eine Statistik zu fälschen, habe ich gar kein Motiv: Im Gegenteil, ich habe mich gefreut wie Bolle, als sie wieder unter einer Million war. Der aktuellen Wert am Ende des Diagramms kann aktuell überprüft werden: einfach eine Alexa-abfrage starten. So wesentlich kann sie von dem Wert an dem letzten Datum des Diagramms ja nicht abweichen.
--89.252.237.134 12:03, 23. Jun. 2017 (NNZ)
(Sorry für die Rechtschreibfehler, auf dem kleinen Bildschirm hier sehe ich bei einem längeren Satz gar nicht mehr den Anfang desselben.)
Ich denke, man könnte aus den Server-Logs (falls es welche gibt) bessere Statistiken ableiten. Man hätte dann die absoluten Zahlen an zugreifenden IPs und Seitenaufrufen und nicht nur irgendein Ranking gegenüber anderen Websites. -- Sloyment (Diskussion) 20:15, 23. Jun. 2017 (NNZ)
Ja, die Server-Logs sind da genauer, lassen aber keinen Vergleich zu anderen Websites zu; es ist damit also kein Ranking möglich. Ein Vergleich ist nur mit denjenigen Websites möglich, auf die man ebenfalls Zugriff hat. So beträgt der Traffic der Kamelopedia derzeit nur (werktags) 5% bis (feiertags) 8% von meiner eigenen privaten Homepage. (Sie waren vor langer Zeit mal etwa gleichrangig!) Natürlich vergleiche ich das immer mit der jeweils akruellen Alexa-Angabe: Es hat da nur einmal im April 2014 eine Unregelmäßigkeit gegeben als Alexa den Algorithmus für Hochrechnungen veränderte, die aber für das hiesige Diagramm irrelevant war. -- 89.252.237.134 09:52, 24. Jun. 2017 (NNZ)
Ach so: nicht zu vergessen die maschinellen Zugriffe von Suchmaschinen: sie betragen im Durchschnitt etwa um die 30 bis 250 Zugriffe pro Tag (je nachdem, ob national oder international gesucht wird). Bei derart geringem Traffic, wie sie die Kamelo derzeit hat, verfälschen sie das Ergebnis: müssten also zusätzlich herausgerechnet werden. Das ist bei dem Vergleich hier (5 bis 8%) noch nicht erfolgt, verschlechtert also das Ergebnis zusätzlich. -- 89.252.237.134 10:02, 24. Jun. 2017 (NNZ)

Statistik-Idee[bearbeiten]

Es gab seit Gründung der Kamelopedia 579335 Edits. Ich bin mir ziemlich sicher, dass zu jedem dieser Edits in der Datenbank das Datum gespeichert ist; ich weiß nur nicht, wie man das abfragt. Hiermit müsste es möglich sein, eine Tabelle bzw. Grafik zu erstellen, die den Aktivitätsverlauf seit Entstehung der Kamelopedia wiedergibt, auch nach Namespace oder nach User aufgeschlüsselt. Das wäre interessant. Ich könnte mir z.B. vorstellen, dass ab ca. 2010 Facebook sehr viel Aktivität weggefressen hat. Viele Kamele sind nach meiner subjektiven Wahrnehmung ca. April oder Mai 2016 abgehauen. Da wäre auch interessant, ob man das in der Grafik sieht. -- Sloyment (Diskussion) 17:42, 24. Jun. 2017 (NNZ)

Es steht doch auch in den Fußnoten der Artikel, wie oft sie aufgerufen wurden. Das ist für sehr alte Artikel mit mehreren Tausend Aufrufen in 10 Jahren nicht hilfreich, aber bei relativ neuen Artikel schon: etwa einen Tag alt und 7 bis 8 Aufrufe - das sind wahrscheinlich alles Altkamele, die die letzten Änderungen oszillieren. Bei Artikeln, die etwa 1 Monat alt sind, sind es bereits 50 bis 60 Artikelaufrufe (da muss man allerdings die 5 bis 10 Edits von Kamelurmel abziehen), also etwa 1,5 Aufrufe pro Tag... das ist nicht doll. Suche mal nach einem zufälligen Artikel in Google: bei mir jetzt Verleger... Keywords also Verleger + kamel... also bei Seite 30 habe ich aufgehört zu suchen, die Kamelopedia war bis dahin nicht dabei.
Einzige Möglichkeit ist die „Flüsterpropaganda“ um Leser auf die Kamelopedia zu locken. Deren Artikel müssen begeistern (und nicht abschrecken). Und das ist derzeit leider nicht der Fall. Gnome-face-sad.svg -- 89.252.237.134 18:10, 24. Jun. 2017 (NNZ)
Erstmal geht es nicht um die Zahl der Aufrufe, sondern um die Zeitpunkte der Edits. Hieraus könnte man z.B. für jede Woche oder sogar jeden Tag oder jede Stunde die Anzahl der Edits ermitteln und in einer Grafik darstellen. Ich denke, das sagt mehr über den Zustand der Kamelopedia aus als irgendein seltsames Ranking.
Was Google angeht: Die Ergebnisse werden auf jede Person einzeln zugeschnitten. Wenn ich etwas auf Englisch oder Russisch eingebe, bekomme ich hauptsächlich deutschsprachige Ergebnisse, nur weil man an meiner IP-Adresse sehen kann, dass mein Provider seinen Sitz in Norderstedt hat. Das ist schon ganz schön krass. Google hat aber auch ein Profil über mich angelegt, wo Dinge drinstehen, die sie eigentlich nicht wissen können, z.B. wie alt ich bin und wie ich wohne. Das ist unheimlich. Und diese Daten werden beim Generieren der Ergebnisse auch mit herangezogen. Mit Google lebt man in seiner persönlichen Filterblase. Es ist keine neutrale Web-Suche. -- Sloyment (Diskussion) 00:06, 25. Jun. 2017 (NNZ)
Aus der Tabelle könnte man auch entnehmen, welcher User von wann bis wann aktiv war und ob es eine Verlagerung vom Artikel-Raum in andere Räume gab (z.B. Diskussionsseiten oder Frageraum). Die Tabelle könnte so aussehen (Binärformat?):
Offset: 0 Byte (= Edit Nr. 1)
4 Byte: Timestamp
4 Byte: Namespace
4 Byte: User ID
Offset: 12 Byte (= Edit Nr. 2)
Offset: 24 Byte (= Edit Nr. 3)
Dazu zwei Hilfstabellen (CSV?):
Nr. des Namespace, Name des Namespace
und
User ID, Username
Die Daten sind auch per Browser abrufbar. Es wäre aber Quatsch, sie aus den HTML-Seiten zu picken, wenn man sie auch per SQL-Abfrage ziehen kann. Hier ein paar Beispiele:
Edit Nr. 100000 wurde am 13. März 2006, 20:35 Uhr von AnnaLog im Artikel-Namespace vorgenommen.
Edit Nr. 200000 wurde am 27. Juni 2007, 17:31 Uhr im Namespace „Diskussion:“ von WiMu vorgenommen.
Edit Nr. 300000 wurde am 16. Februar 2009, 16:11 Uhr von Luzifers Freund im Artikel-Namespace vorgenommen.
Edit Nr. 400000 wurde am 22. Juni 2010, 17:40 Uhr im Namespace „Projekt:“ von BuffaloBill vorgenommen.
Edit Nr. 500000 gehört zu einer inzwischen gelöschten Seite.
-- Sloyment (Diskussion) 00:45, 25. Jun. 2017 (NNZ)
Hat aber alles den Nachteil, dass nur die Edits in B-tracht kommen, nicht die Lesezugriffe... aber die Leser wären entscheidend, nicht die Autoren. Sehr gute Artikel (zum Beispiel Großbritannien werden schon lange nicht mehr editiert (weil sie einfach Spitze sind und kaum noch verbessert werden können). Aber genau diese Artikel werden oft gelesen. -- 89.252.237.134 08:21, 25. Jun. 2017 (NNZ)