Discovering representations of democracy in Big Data: purposive semantic sample selection for qualitative and mixed-methods research

StatusVoR
Alternative title
Odkrywanie reprezentacji demokracji w Big Data: semantyczny dobór celowy próby do badań jakościowych i mieszanych
Authors
Plisiecki, Hubert
Kwiatkowska, Agnieszka
Monograph
Monograph (alternative title)
Date
2024-11-30
Publisher
Journal title
Przegląd Socjologii Jakościowej
Issue
4
Volume
20
Pages
Pages
18-43
ISSN
1733-8069
ISSN of series
Access date
2024-11-30
Abstract PL
Wzrastająca liczba dużych, wielotematycznych korpusów tekstowych w naukach społecznych stwarza wy-zwanie w doborze odpowiednich dokumentów do badań jakościowych i mieszanych. Tradycyjne metody doboru próby wymagają intensywnego kodowania manualnego lub uprzedniej wiedzy o zbiorze danych, podczas gdy metody nie-nadzorowane mogą dawać wyniki niespójne z kodowaniem opartym na teorii. Aby temu zaradzić, autorzy proponują semantyczny dobór celowy próby – podejście wykorzystujące przetwarzanie języka naturalnego z użyciem osadzeń dokumentów tworzonych przez średnią ważoną wektorów słów, z wagami określonymi współczynnikiem tf-idf (częstość terminu odwrotnie proporcjonalna do częstości dokumentu). Skuteczność podejścia zademonstrowano na przykładzie demokracji – złożonego tematu, trudnego do wydobycia z korpusów parlamentarnych. Proponowana metoda pozwala na niezawodny i efektywny dobór próby tekstów w dowolnej dziedzinie badań korzystającej z Big Data. Wkład autorów obejmuje walidację tego podejścia NLP dla nauk społecznych i humanistycznych oraz dostarczenie rzetelnego narzę-dzia dla badaczy, ułatwiającego pogłębioną analizę jakościową i eksplorację korpusów Big Data w ramach obliczeniowej teorii ugruntowanej.
Abstract EN
The increasing volume of large, multi-thematic text corpora in social sciences presents a challenge in selecting relevant documents for qualitative and mixed-methods research. Traditional sample selection methods require extensive manual coding or prior dataset knowledge, while unsupervised methods can yield inconsistent results with theory-driven coding. To address this, we propose purposive semantic sampling – a Natural Language Processing approach using document-level embeddings created by a weighted average of word vectors with term frequency-inverse document frequency (tf-idf). We demonstrate its effectiveness using the example of democracy, a complex topic difficult to retrieve from parliamentary corpora. This method applies to any multi-thematic research area within big data, offering a reliable, efficient sample selection method for social research texts. Our contribution includes validating this NLP approach for social sciences and humanities as well as providing a robust tool for researchers, facilitating deeper qualitative analysis and exploration of big data corpora within the computational grounded theory framework.
Abstract other
Keywords PL
dobór próby
dobór celowy
badania jakościowe
word embeddings
demokracja
Keywords EN
sample selection
purposive sampling
qualitative research
word embeddings
democracy
Keywords other
Exhibition title
Place of exhibition (institution)
Exhibition curator
Type
License type
cc-by-nc-nd
Except as otherwise noted, this item is licensed under the Attribution-NonCommercial-NoDerivatives licence | Permitted use of copyrighted works
Funder
Time range from
Time range to
Contact person name
Related publication
Related publication
Grant/project name
Instytucjonalizacja partii politycznych w parlamentach Europy Środkowej - data mining debat parlamentarnych
Views
Views9
Acquisition Date4.04.2025
Downloads
Downloads4
Acquisition Date4.04.2025
Altmetrics©
Dimensions
Google Scholar
Google Scholar