RE: Liste aller deutschsprachigen Steemnutzer Update #7 | Neue Nutzer durch Textanalyse
Hey @hawk399,
im Beitrag meinte ich, dass eine Textdatei mit den Namen der Nutzer entsteht. Das Tool selber überprüft, ob in dem Text des Posts/Kommentars gewisse Voraussetzungen herrschen und falls nicht, verwirft er diesen und nimmt sich den nächsten vor. :)
Ist diese dann nicht ziemlich bald ziemlich gross, bzw. hast du dann nicht eine Unmenge an Dateien?
Das ist teilweise echt gruselig. Hier mal ein Beispiel. Eine einfache Auflistung aller Links zu den Posts (keine Kommentare) 2018, welche von deutschsprachigen Nutzern erstellt wurden = ~ 32 MB
Meine größte "Textdatei" bei den letzten Auswertungen war über 244 MB groß.
Die Datenbanken, welche ich sammel, sind noch viel viel größer.
Aber ich bin auf jeden Fall gespannt auf deine Auswertungen.
Danke :D
LG Max
Ah, nur die Namen speichern macht mehr Sinn. Ich dachte du kopierst auch denn Inhalt, damit du gleich den Post selber anschauen kannst ohne aufs Internet zu gehen.
Ja, Datenbanken werden oft ziemlich gross, aber die Steem Blockchain ist noch erstaunlich klein. Vor einem Jahr war sie "nur" 43GB gross. Ich schätze mittlerweile wird sie aber fast doppelt so gross sein.
https://steemit.com/steem/@crokkon/steem-blockchain-size
Ich habe fürs Studium kürzlich Messungen gemacht (ca. 1000Stk a jeweils 100'000 Samples) und die ganzen CSV Dateien kamen auf rund 800MB. Aber ich muss auch zugeben, dass die "Datenbank" nicht wirklich speicheroptimiert war.
Ah, witzig dass dieser alte Post immer wieder gefunden wird :) Die serialisierten Blockchain-Rohdaten sind aktuell ca. 144 GB gross, verarbeitet in den Datenbanken des steemd-clients ists ein Vielfaches davon...