A Statistical Study of Digital Footprint in Cyberspace: Language Markers of Destructive Communities

УДК 81'33, ББК 81.1

  • Ivan Mamaev Baltic State Technical University “Voenmeh” named after D. F. Ustinov https://orcid.org/0000-0003-3362-9131 Email: mamaev_id@voenmeh.ru
  • Mikhail Marusenko St. Petersburg State University Email: m.marusenko@spbu.ru
  • Vadim Petrov St. Petersburg State University Email: vadim.petrov@spbu.ru
Keywords: forensics, destructive communities, extremist content, authorship profiling, social networks, language markers

Abstract

With the widespread use of information and communication technologies, the tendency to spread aggressive and destructive content presented in text format is growing, which creates a need to develop new methods for detecting and describing groups of people who leave such "digital footprint". This paper presents a procedure for linguistic profiling of texts based on a systemic and structural study of language parameters and their quantitative calculation. For the experiment, a test dataset has been collected, it is represented by texts from platforms where potentially destructive content is published. The corpus is clustered using the k-means method, and topically oriented groups of texts, which are the projections of destructive user communities, are detected. Using the Python programming language, the authors implement an algorithm that includes text preprocessing, calculating statistical relationships among language characteristics and, finally, determining the level of significance, which allows asserting the characteristic language tendencies of destructive communities. Significant dependencies between the coefficient of lexical density and the frequency of use of verbs/nouns, as well as the type-token ratio (the coefficient of lexical richness, the ratio of the number of unique words to the total number of words in the text) are established. The stylistic characteristics of the presented clusters are given.

Downloads

Download data is not yet available.

Author Biographies

Ivan Mamaev, Baltic State Technical University “Voenmeh” named after D. F. Ustinov

Candidate of Philological Sciences, Senior Lecturer, Department of Theoretical and Applied Linguistics, Baltic State Technical University "Voenmekh" named after D.F. Ustinov; Assistant, Department of Mathematical Linguistics, Saint Petersburg State University

Mikhail Marusenko, St. Petersburg State University

Doctor of Philology, Professor, Professor of the Department of Mathematical Linguistics

Vadim Petrov, St. Petersburg State University

Candidate of Medical Sciences, Senior Lecturer at the Department of Criminal Procedure and Forensic Science

References

Ананьева М. И., Девяткин Д. А., Кобозева М. В., Смирнов И. В. Лингвостатистический анализ текстов экстремистской направленности / Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности: материалы Международной конференции (SCVRT2015–16). – 2016. – С. 210-213.

Бакиров Р. Р., Грязнов А. Н., Валиахметов И. Р. Социально-психологическая типология членов ОПГ с позиции их готовности к социальной интеграции / Общество, государство, личность: применение научных знаний и технологий в решении социально-экономических задач региона. – 2023. – С. 101-111.

Васильева Н. В, Майборода А. В., Ясавеев И. Г. «Почему уходят в ИГИЛ ?»: дискурс-анализ нарративов молодых дагестанцев / Социологическое обозрение. – 2017. – Т. 16. – №. 2. – С. 54-74.

Володин Е. А. Особенности внедрения искусственного интеллекта в судебные процессы: автоматизация и цифровизация правоприменения / Юридическая наука. – 2025. – №. 4. – С. 85-89.

Литвинова Т. А. Компаративное исследование текстов участников экстремистского форума и лиц с известными психологическими характеристиками с использованием методов стилеметрического анализа / Известия Воронежского государственного педагогического университета. – 2020. – №. 1. – С. 168-175.

Литвинова Т. А. Стилеметрическое исследование текстов участников экстремистского форума: гендерный аспект / Известия Воронежского государственного педагогического университета. – 2019. – №. 4. – С. 227-236.

Мамаев И. Д., Митрофанова О. А., Петров В. В., Марусенко М. А. Методы автоматического выявления и анализа дискурса сообщества иностранных агентов в цифровой среде (лингвокриминалистический аспект) / Филологические науки. Вопросы теории и практики. – 2025. – Т. 18. – №. 7. – С. 3106-3115.

Марусенко М. А., Бессонов Б. Л., Богданова Л. М., Аникин М. А., Мясоедова Н. Е. В поисках потерянного автора: Этюды атрибуции. СПб., 2001.

Министерство юстиции Российской Федерации. Экстремистские материалы. Hatewall. URL: https://www.minjust.gov.ru/ru/extremist-materials/?q=hatewall

Осипенко А. Л. Организованная преступная деятельность в киберпространстве: тенденции и противодействие / Юридическая наука и практика: Вестник Нижегородской академии МВД России. – 2017. – №. 4 (40). – С. 181-188.

Пристансков В. Д., Харатишвили А. Г., Евстратова Ю. А. Искусственный интеллект – новая форма использования специальных знаний в расследовании и раскрытии киберпреступлений / Всероссийский криминологический журнал. – 2023. – Т. 17, № 6. – C. 586-596.

Уголовный кодекс Российской Федерации от 13.06.1996 N 63-ФЗ (ред. от 28.12.2024) (с изм. и доп., вступ. в силу с 08.01.2025). URL: https://www.consultant.ru/document/cons_doc_LAW_10699/

Федеральный закон от 25.07.2002 №114-ФЗ «О противодействии экстремистской деятельности». URL: https://www.consultant.ru/document/cons_doc_LAW_37867/

Федеральный закон от 6 марта 2006 года № 35-ФЗ «О противодействии терроризму». URL: https://www.consultant.ru/document/cons_doc_LAW_58840/

Ahmed M. H., Tiun S., Omar N., Sani N.S. Short text clustering algorithms, application and challenges: A survey / Applied Sciences. – 2022. – Vol. 13. – No. 1. – Pp. 1-38.

Benko V., Zakharov V. P. Very Large Russian Corpora: New Opportunities and New Challenges / Computational Linguistics and Intellectual Technologies. – Российский государственный гуманитарный университет. – 2016. – Pp. 79-93.

Resende de Mendonça R., Felix de Brito D., de Franco Rosa F., dos Reis J. C., Bonacin R. A framework for detecting intentions of criminal acts in social media: A case study on twitter / Information. – 2020. – Vol. 11. – No. 3. – Pp. 1-40.

Swales J. Discourse communities, genres and English as an international language / World Englishes. – 1988. – Vol. 7. – No. 2. – Pp. 211-220.

Published
2025-12-30
How to Cite
Mamaev, I., Marusenko, M., & Petrov, V. (2025). A Statistical Study of Digital Footprint in Cyberspace: Language Markers of Destructive Communities. Legal Linguistics, (38 (49), 62-73. https://doi.org/10.14258/leglin(2025)3811
Section
Forensic Linguistics

Most read articles by the same author(s)