Discovering representations of democracy in Big Data: purposive semantic sample selection for qualitative and mixed-methods research

StatusVoR
cris.lastimport.scopus2025-08-31T03:15:53Z
dc.abstract.enThe increasing volume of large, multi-thematic text corpora in social sciences presents a challenge in selecting relevant documents for qualitative and mixed-methods research. Traditional sample selection methods require extensive manual coding or prior dataset knowledge, while unsupervised methods can yield inconsistent results with theory-driven coding. To address this, we propose purposive semantic sampling – a Natural Language Processing approach using document-level embeddings created by a weighted average of word vectors with term frequency-inverse document frequency (tf-idf). We demonstrate its effectiveness using the example of democracy, a complex topic difficult to retrieve from parliamentary corpora. This method applies to any multi-thematic research area within big data, offering a reliable, efficient sample selection method for social research texts. Our contribution includes validating this NLP approach for social sciences and humanities as well as providing a robust tool for researchers, facilitating deeper qualitative analysis and exploration of big data corpora within the computational grounded theory framework.
dc.abstract.plWzrastająca liczba dużych, wielotematycznych korpusów tekstowych w naukach społecznych stwarza wy-zwanie w doborze odpowiednich dokumentów do badań jakościowych i mieszanych. Tradycyjne metody doboru próby wymagają intensywnego kodowania manualnego lub uprzedniej wiedzy o zbiorze danych, podczas gdy metody nie-nadzorowane mogą dawać wyniki niespójne z kodowaniem opartym na teorii. Aby temu zaradzić, autorzy proponują semantyczny dobór celowy próby – podejście wykorzystujące przetwarzanie języka naturalnego z użyciem osadzeń dokumentów tworzonych przez średnią ważoną wektorów słów, z wagami określonymi współczynnikiem tf-idf (częstość terminu odwrotnie proporcjonalna do częstości dokumentu). Skuteczność podejścia zademonstrowano na przykładzie demokracji – złożonego tematu, trudnego do wydobycia z korpusów parlamentarnych. Proponowana metoda pozwala na niezawodny i efektywny dobór próby tekstów w dowolnej dziedzinie badań korzystającej z Big Data. Wkład autorów obejmuje walidację tego podejścia NLP dla nauk społecznych i humanistycznych oraz dostarczenie rzetelnego narzę-dzia dla badaczy, ułatwiającego pogłębioną analizę jakościową i eksplorację korpusów Big Data w ramach obliczeniowej teorii ugruntowanej.
dc.affiliationInstytut Nauk Społecznych
dc.affiliationWydział Nauk Społecznych w Warszawie
dc.contributor.authorPlisiecki, Hubert
dc.contributor.authorKwiatkowska, Agnieszka
dc.date.access2024-11-30
dc.date.accessioned2024-12-16T07:45:06Z
dc.date.available2024-12-16T07:45:06Z
dc.date.created2024-05-13
dc.date.issued2024-11-30
dc.description.abstract<jats:p>The increasing volume of large, multi-thematic text corpora in social sciences presents a challenge in selecting relevant documents for qualitative and mixed-methods research. Traditional sample selection methods require extensive manual coding or prior dataset knowledge, while unsupervised methods can yield inconsistent results with theory-driven coding. To address this, we propose purposive semantic sampling – a Natural Language Processing approach using document-level embeddings created by a weighted average of word vectors with term frequency-inverse document frequency (tf-idf). We demonstrate its effectiveness using the example of democracy, a complex topic difficult to retrieve from parliamentary corpora. This method applies to any multi-thematic research area within big data, offering a reliable, efficient sample selection method for social research texts. Our contribution includes validating this NLP approach for social sciences and humanities as well as providing a robust tool for researchers, facilitating deeper qualitative analysis and exploration of big data corpora within the computational grounded theory framework.</jats:p>
dc.description.accesstimeat_publication
dc.description.grantnumber2019/33/B/HS5/02648
dc.description.granttitleInstytucjonalizacja partii politycznych w parlamentach Europy Środkowej - data mining debat parlamentarnych
dc.description.issue4
dc.description.physical18-43
dc.description.versionfinal_published
dc.description.volume20
dc.identifier.doi10.18778/1733-8069.20.4.02
dc.identifier.issn1733-8069
dc.identifier.urihttps://share.swps.edu.pl/handle/swps/1157
dc.identifier.weblinkhttps://czasopisma.uni.lodz.pl/socjak/article/view/24264/24253
dc.languageen
dc.language.otherpl
dc.pbn.affiliationnauki socjologiczne
dc.rightsCC-BY-NC-ND
dc.rights.questionYes_rights
dc.share.articleOPEN_JOURNAL
dc.subject.ensample selection
dc.subject.enpurposive sampling
dc.subject.enqualitative research
dc.subject.enword embeddings
dc.subject.endemocracy
dc.subject.pldobór próby
dc.subject.pldobór celowy
dc.subject.plbadania jakościowe
dc.subject.plword embeddings
dc.subject.pldemokracja
dc.swps.sciencecloudsend
dc.titleDiscovering representations of democracy in Big Data: purposive semantic sample selection for qualitative and mixed-methods research
dc.title.alternativeOdkrywanie reprezentacji demokracji w Big Data: semantyczny dobór celowy próby do badań jakościowych i mieszanych
dc.title.journalPrzegląd Socjologii Jakościowej
dc.typeJournalArticle
dspace.entity.typeArticle