вт, 03/09/2019 - 00:59
1539
1

Обзор статистики сайта Forpost

Kung Lao v2.0

Привет всему Севастополю и читателям сайта «Форпост»!

Летом решил провести небольшое исследование по нашему ресурсу, собрал данные со всех новостей сайта и вывел некоторые результаты. Данные брались с первого дня существования сайта и до начала июля 2019 года. Написать статью решил только сейчас, поскольку уезжал в отпуск и только недавно смог вернуться к своему проекту. Заранее прошу не судить данное исследование слишком строго, я не аналитик и даже не статистик, а всего лишь изучаю программирование и возможности использования некоторых инструментов.

Первое, на что хочется обратить внимание - это активность форума.

На протяжении всего времени существования сайта можно отметить два «взлета» активности аудитории. На графике отображена динамка регистрации новых пользователей сайта и некоторые заметные моменты в истории его существования (ось X - время, ось Y - количество пользвоателей).

 

 

Дни, когда на сайте было зарегистрировано наибольшее число новых пользователей:

    ● 16.03.2014 (212 новых пользователей) - Крымская весна

    ● 13.07.2012 (194 новых пользователя) - Голосование по проектам застройки м. Хрустальный

    ● 27.02.2014 (182 новых пользователя) - Митинг на Нахимова и последующие события

В целом, в истории сайта отмечается два периода роста числа новых пользователей – лето 2008 года и весна 2014.

Также предлагаю вашему вниманию отдельные таблицы-сводки по результатам статистических расчетов. 

Таблица с самыми обсуждаемыми новостями за все время по годам

По ссылке представлены таблицы - топ-50 обсуждаемых новостей в каждом году и за все время. Топы отбирались по количеству комментариев более 100 в каждом блоке обсуждений и сортировались по дате. Что стоит отметить - до событий 2014 года самые обсуждаемые новости были связаны с тем, что происходит где-то на материковой части Украины, какие настроения у граждан в Киеве, обсуждались некоторые вещи касательно истории Севастополя и России, а также попытки "украинизации" Крыма и Севастополя. Начиная с 2014 года, ситуация кардинально поменялась, наиболее интересными публике новостями стали внутренние проблемы в городе, в том числе связанные с конфликтами интересов. Стоит отметить, что в период с 2011 по 2013 год включительно в топах присутствуют ссылки на страницы с поздравлениями жителей с Новым годом. В них администрация сайта и пользователи поздравляли друг друга с праздниками. После 2013 такие ссылки не появлялись.

Таблица с наиболее активными пользователями сайта

Таблица отображает топ-100 пользователей по количеству сообщений, когда-либо написанных в обсуждениях к каждой новости. Может быть, кто-то из вас там присутствует :)

Таблица с долгожителями форума

В таблице приведены топ-100 пользователей по числу дней их пребывания на сайте. Данные сформированы по разнице во времени между самым первым и последним постами в обсуждениях. До сих пор активны некоторые пользователи, которые до зарегистрировались еще в 2007 году.

Таблица с наиболее понравившимися постами

Лайки появились лишь в конце сентября 2017 года (во время редизайна сайта), поэтому сведения по высоко оцененным постам можно увидеть, начиная только с этого года. Таблица демонстрирует сообщения с наибольшими числами «лайков».

Таблица с наиболее неоднозначными постами

Интересная выборка получалась также и по тем случаям, когда соотношение лайков и дизлайков было минимальным, то есть мнения разделились почти поровну. Кто прав, а кто нет - никто доподлинно не знает.

Таблица с временными показателями регистрации ботов

Была попытка определить количество ботов по разнице между датами их первых и последних комментариев. По моим суждениям, если разрыв в днях между первым и последним сообщениями составляет менее 5 дней, то вполне возможно, что пользователь – либо бот, либо тот, кому настойчиво порекомендовали оставить свое мнение на сайте (допустимо, что это одно и то же). Велика вероятность того, что таблица не отображает реальную ситуацию (бот может работать и более 5 дней), но принял решение оставить выборку по минимальному времени активности на сайте. Настоящие боты, засоряющие обсуждение рекламой, были зафиксированы в апреле 2008 года. Наибольшее количество пользователей, просуществовавших менее 5 дней на форуме, было в 2008 (5492), 2014 (5440) и 2015 (2239) годах.

Ряд фактов:

    ● К 01.07.2019 было зарегистрировано 38543 пользователя;

    ● Написано 121547 статей в разделе «Новости» (в 9777 из них не было комментариев);

    ● Наибольшая активность в обсуждениях наблюдается в период с 19 по 21 час;

    ● Чаще всего новости появляются в период с 12 до 14 часов;

    ● Наибольшее количество новостей на сайте зафиксировано в 2014 году (44763);

По самим комментариям статистика пока что не собиралась, но при желании есть возможность сделать выгрузку по ключевым словам.

Если вас интересуют какие-либо дополнительные выборки, обращайтесь по почтовому адресу kunglao20@yandex.ru.

Надеюсь, эти сведения были вам интересны.

 

Upd. 04.09.2019

Вот еще одна таблица со статьями набравшими 200 и более постов, только расположены они в хронологическом порядке

На данном примере еще нагляднее видно тенденции интересов публики.

До зимы 2013 года обсуждения были в большинстве о том, какую новую мысль толкнули на материковой части Украины. Проблем в городе как будто совсем нет, подавай только цитаты Ющенко, отношения Медведева и Януковича, редкие ссылки на события в России (Болотная, к примеру).

С начала 2014 года и до весны 2015 - подъем волны патриотизма, "наши ответы санкциям", критика мнений западных политиков, а также обсуждение тем майдана, ДНР-ЛНР, концепции новых гербов Севастополя и прочее, на что еще можно обращать внимание, пока...

...весной (а точнее, в апреле) 2015 года, сразу после годовщины Крымской весны не появились негативные отзывы о работе Меняйло. Подливает масла в огонь обсуждение целей Ночных волков в Севастополе, инцидент с Херсонесом, когда Меняйло попал в видео, где он высокомерно общался с работниками объекта. Пошли письма президенту с просьбой разобраться с исполнительной властью и не считать людей, высказывающих свои критические мнения, пятой колонной и майданутыми, а также всяческие обращения и агитации людей.

Где-то с августа 2015 года в темах пошел откровенный негатив в отношении того, что делается в городе, пользователи открыто жалуются на губернатора, случается энергоконфликт, блекаут, Зубков разочарован в тех идеалах, которые ранее его вдохновляли, внезапно растет "популярность" казаков, у людей появляется интерес к тому, на что тратятся бюджетные средства.

2016 год - разработка генплана, отставка Меняйло, очередные конфликты коммерсантов и чиновников, начало сноса павильонов, гаражей, очередной виток событий с передачей земли у горы Гасфорта.

2017 год - критика проектов по благоустройству города, первые упоминания закрытия пляжей, акцент на слабом туристическом потоке.

В 2018 в топ не вырвалось практически ничего того, на что ранее было более 200 комментариев: ни закрытие Муссона, рынков, длительные реставрации парков, эксперименты с проездными билетами, ни выборы, ни даже отзывов о новом губернаторе.

В 2019 году и вовсе ничего интересного нет, несмотря на то, что прошло больше полугода.

Получается, если судить по данной выборке и принимать "Форпост", как отражение мыслей местных граждан, то можно отметить некий переломный момент в жизни города, а именно - апрель 2015 года, когда тенденция активности граждан пошла на спад. 

Дополнительно создал график по зависимости количества комментариев от временных показателей (год+месяц) и получился интересный результат.

 

 

На графике видно, что максимальное число обсуждений за всю историю Форпоста до лета 2019 года пришлось именно на март 2014 года, что, в принципе, предсказуемо. Удивительно то, как стремительно рухнула прямая уже к лету того же года. Далее - скачки, видимо, связанные с некоторыми локальными конфликтами, часть из них можно увидеть в таблице выше. Тенденция обсуждений пошла на спад с середины 2015 года. Возможно, у людей появилось гораздо больше собственных забот, в частности, связанными с проблемами переходного периода после Крымской весны. Либо просто новостей, в том числе с негативным подтекстом, становится слишком много, чтобы успевать на это реагировать. К сожалению, на графике нельзя запечатлеть общий эмоциональный фон населения, но, думаю, это можно логически вывести по таблице и приведенному графику. Рядом с сновной линией лежит еще пунктирная - т.н. полиномиальная регрессия, в которой полученная линия является "обобщением" множества точек со значениями числа комментариев и также используется для прогнозирования событий. Судя по тому, как линию повело вверх в конце, пока что можно предположить, что на "Форпосте" будет еще как минимум один взлет активности пользователей. Но что для этого должно произойти, пока никто не знает.

Upd. 07.09.2019

Составил "облака" слов по комментариям и данным по никам. Использовал все те же возможности python и выборок в SQL, а сами изображения составлены в программе Wordle.

География пользователей Форпоста:

 

 

Самые часто употребляемые слова:

 

 

Самые часто употребляемые выражения:

 

Upd. 13.09.2019

Собраны данные до 10.09.2019.

Сделана выборка пользователей по параметру "карма" - сумма лайка и дизлайка.

Таблица пользователей с наибольшим показателем кармы.

 

Upd. 16.09.2019

Собраны самые обсуждемые события лета 2019-го года

Таблица главных событий лета 2019-го года.

 

Upd. 17.09.2019

Собраны статьи с заголовками, в которых гражданам что-то обещают.

Таблица обещаний Форпоста

Также прикрепляю график динамики обещаний за весь период работы Форпоста. Линия тренда в 2019 году идет вниз, поскольку конец года еще не наступил.

 

Upd. 18.09.2019

В ходе обсуджения темы с интервью с главным редактором ForPost появились комментарии, посвященные некогда популярному пользователю Кукузель. Решил собрать таблицу с его комментариями в отдельную таблицу. В таблице представлены его посты с исключительно севастопольской подписью "Из разговора в «топике» маршрута № 12"

Кукузель, или из разговора в «топике» маршрута № 12.

 

Upd. 02.10.2019

Самые обсуждаемые темы сентября 2019 года

Самые неоднозначные комментарии сентября 2019 года

Исследование проводилось при помощи инструментов программирования python и SQL.