Pesquisa acadêmica com dados de mídias sociais: por onde começar?

No prefácio do livro “Análise de Redes para Mídia Social” (2015), o sociólogo Marc A. Smith introduz a obra de Raquel Recuero, Marco Bastos e Gabriela Zago dando destaque sobretudo à emergência do aparato teórico-metodológico que permitiu a popularização dos estudos de redes a partir de dados da internet. “Enquanto nossa sociedade adota a mídia social como um novo fórum para o discurso público, criando uma praça pública virtual, há uma necessidade crescente de ferramentas e métodos que possam documentar esses espaços […]”, explica.

A mídia social pode ser um fluxo desconcertante de comentários, uma assustadora mangueira de incêndio esperramando conteúdo. Com melhores ferramentas e um pequeno conjunto de conceitos da ciência social, o enxame de comentários, favoritos, etiquetas, curtidas, avaliações, atualizações e links pode revelar pessoas-chave, tópicos e subcomunidades. Quanto mais interações sociais moverem-se para grupos de dados que podem ser lidos por máquinas, mais novas ilustrações das relações humanas e organizacionais se tornam possíveis. Mas novos formatos de dados requerem novas ferramentas para coletar, analisar e comunicar percepções.
SMITH, p. 11.

Seis anos antes, a própria Recuero já chamava a atenção em “Redes Sociais na Internet” (2009) para como a (popularização e consolidação da) interação mediada por computador facilitou a produção de rastros identificáveis, a difusão de conteúdos diversos e a ampliação de limites interacionais. Esses aspectos foram desenvolvidos com mais detalhes em outra obra de sua autoria, “A conversação em Rede: comunicação mediada pelo computador” (2014), agora em torno da caracterização de elementos e dinâmicas especificamente dos sites de redes sociais (SRSs).

As affordances propostas por danah boyd para pensar os públicos em rede (networked publics) – persistência, replicabilidade, escalabilidade e buscabilidade – ratificam como a internet (ou os SRSs) se tornou(aram) um espaço prolífero para identificar as “novas” formas de sociabilidade das últimas décadas. Nas palavras de Richard Rogers em “The End of the Virtual” (2009): “A questão não é mais saber o quanto da sociedade e da cultura está online, mas sim como diagnosticar mudanças culturais e condições da sociedade através da internet”.

Cerca de dez anos já se passaram desde a publicação dessas obras mais antigas e muitas outras questões (inclusive problemáticas) já entraram em cena, mas o interesse em fazer pesquisa com dados de mídias sociais segue crescente. A grande área da Comunicação (incluindo aqui também os chamados Media Studies), provavelmente a primeira que se propôs a avançar as discussões e as metodologias desse novo ecossistema social, hoje já partilha desse interesse com outras disciplinas das Ciências Humanas e o restante das Ciências Sociais Aplicadas.

É nesse contexto que surgem (sub)disciplinas/campos como as Humanidades Digitais (Sociologia Digital, História Digital), que unem as epistemologias específicas das Ciências Humanas com muito do que foi desenvolvido sobre mídias digitais nas últimas décadas (que localizo em Comunicação, mas cujos fundamentos são também muito ligados à Sociologia, por exemplo). Acrescentamos a esse cenário as técnicas de coleta/tratamento/análise de dados de áreas ainda mais distantes, como a Ciência da Computação ou Engenharia da Informação.

Pessoas de várias disciplinas são atraídas para o estudo da internet por muitas razões. Alguns querem utilizar as tecnologias para conduzir pesquisa tradicional dentro de suas bases disciplinares, outros querem se libertar dos grilhões das práticas disciplinares tradicionais. Alguns querem compreender algo sobre tecnologias particulares, mas possuem pouco treinamento em métodos para estudá-las. Outros sabem muito sobre os métodos da pesquisa sociais mas pouco a respeito do contexto tecnologicamente mediado que eles estão estudando.
(MARKHAM e BOYD, 2009, p. XIII apud FRAGOSO et. al, p. 28-29)

O que temos hoje, portanto, é um cenário de fartura de dados, ferramentas refinadas, metodologias consolidadas e avanços teórico-epistemológicos interdisciplinares. Em outras palavras: todo mundo quer um pedacinho desse bolo multicamadas. Este post, portanto, é para você que está na graduação ou numa pós e está doido para provar o sabor dessa belezura, mas que não faz ideia por onde começar – ou nem tem certeza se é realmente esse bolo que vai alimentar a sua fome (pode até achar que sim, mas talvez – mais para frente – descubra que não).

Neste post, pretendo apresentar aqui algumas orientações/indicações do que eu acredito que pode vir a ser útil para a sua jornada enquanto pesquisador acadêmico que deseja/pretende trabalhar com dados (publicações, principalmente) de mídias sociais. Já deixo aqui o agradecimento à minha amiga Aianne Amado, que tem desenvolvido comigo alguns projetos que passam por essa temática; e ao mestre (e meu ex-chefe) Tarcízio Silva, que me apresentou a maioria dessas discussões, autores e, principalmente, ferramentas e metodologias.

A proposta aqui não é a de oferecer um panorama geral, que exigiria uma elaboração ainda mais cuidadosa e “cientificamente responsável” (como em uma revisão bibliográfica ou estado da arte), mas apontar alguns caminhos interessantes para esse trabalho. Já são mais de duas décadas de produção acadêmica tanto no Brasil quanto lá fora que pavimentaram o chão no qual podemos caminhar hoje em dia, então é importante conhecer alguns desses esforços para continuarmos trilhando essa jornada sem querer reinventar a roda.

Apontamentos iniciais para a pesquisa acadêmica com dados de mídias sociais

A primeira coisa que eu acho importante de fazermos (coletivamente enquanto comunidade acadêmica) é acalmar os ânimos. Com esse boom de dados que é explorado em diversas narrativas mercadológicas (big data, data scientist, etc.), acabamos querendo também entrar nessa onda apenas para, como falei na metáfora anteriormente, pegar um pedacinho desse bolo. Vale, então, perguntar-se: será que o meu interesse de pesquisa se encaixa nesse contexto e/ou pode ser respondido a partir de dados (publicações) de mídias sociais?

Começo, portanto, apresentando quatro pontos que acredito que precisamos levar em consideração ao nos propormos a realizar pesquisa em mídias sociais. São questões que trago não para esgotarmos as discussões (que são complexas e podem ter argumentos consideralmente conflitantes) ou para desestimular o interesse por essa jornada, mas para pensarmos também o que não pode ser pesquisado a partir desses dados – ou até pode, mas que precisa ser responsavelmente abordado na teoria e metodologia da pesquisa.

1. Não pule para a metodologia antes de definir o objetivo e o problema de pesquisa

Na abertura do livro “Methods of Discovery: Heuristics for the Social Sciences” (2004), o sociólogo Andrew Abbott coloca que: “The heart of good work is a puzzle and an idea” (algo como “O coração de um bom trabalho [de pesquisa] é um quebra-cabeças e uma ideia”, em tradução literal). O autor chama a atenção para como o rigor e a criatividade devem andar lado a lado no fazer científico, para que seja possível destravar as ideias mais criativas através de métodos que devem servir de apoio, mas raramente de guias definitivos.

Trago essa referência porque muitas vezes o que eu vejo são estudantes de graduação ou pesquisadores de pós querendo utilizar certas metodologias apenas pela metodologia. Será que analisar tweets realmente responde à sua questão de pesquisa? Será que o que as pessoas publicam no Instagram se enquadra nas informações que você precisa para avaliar as suas hipóteses? Grafos são realmente muito bonitos (tenho uma amiga que sempre fala que parecem galáxias), mas será que eles atendem as suas necessidades?

2. Lembre-se que o Brasil ainda é um país extremamente desigual

Ainda nessa questão de êxtase por dados, não se engane: o Brasil infelizmente – e com índices piorados devido à pandemia e o descaso do governo federal – continua sendo um país com diversos problemas socioeconômicos. A pesquisa TIC Domicílios 2019 realizada pelo Centro Regional para o Desenvolvimento de Estudos sobre a Sociedade da Informação (Cetic.br) indicou que 80% dos brasileiros possuem acesso à internet, mas há diferenças importantes para serem consideradas a partir de recortes de renda, gênero, raça e regiões.

Gráfico desenvolvido pelo Canal Tech a partir do relatório da Cetic.br

Não se engane (como propõe o mercado de marketing/publicidade): pesquisas e relatórios de institutos como o próprio Cetic.br ou o IBGE, por exemplo, são bem mais importantes do que estudos de agências cool sobre a mais nova tendência digital para dois mil e tanto. Essa ponderação retorna ao primeiro ponto levantado: será que o que é produzido pelos pessoas na internet – às vezes, mais especificamente, nas mídias sociais – realmente atende o que você necessita? São 1) brasileiros falando sobre ou 2) “internautas” brasileiros falando sobre?

3. Entenda muito bem como os usuários se apropriam de cada plataforma e quais dados (conteúdos) geram em cada uma delas

Este ponto parte de dois lugares diferentes, mas com o mesmo pressuposto: a facilidade de falar de mídias sociais (ou sites de redes sociais) como um grupo. Quando falamos em fazer pesquisa sobre/nas/com dados de mídias sociais, estamos supondo que se trata de um coletivo relativamente homogêneo, semelhante – o que não necessariamente é o caso para todas. Embora autoras como danah boyd e Nicolle Ellison tenha, em 2007, tentando propor algumas características em comum para esses sites, mais de 10 anos depois, esse conceito se complexificou muito.

O problema, portanto, encontra-se neste lugar que pressupõe uma classificação bem definida para mídias sociais (ou sites de redes sociais), mas não leva em consideração como suas próprias arquiteturas estão em constante atualização, complicando suas semelhanças e diferenças. E aí entra outra questão também muito importante: o modo como as pessoas se apropriam e fazem a utilização de cada plataforma. Cada espaço estimula produções diferentes de nós mesmos, atendendo ainda à maquinaria da opinião pública – que une pessoas, empresas, personalidades, etc.

Em outras palavras, o que você publica/compartilha no Facebook não é a mesma coisa que você compartilha no Instagram, LinkedIn ou Twitter. Os públicos com os quais você interage em cada um desses sites (familiares, grupos de amigos, conhecidos, contatinhos, etc.) é muito provavelmente diferente, e isso tanto implica quanto está implicado no tipo de conteúdo que será gerado em cada um deles. Se você consegue perceber isso da perspectiva de usuário, deve também ter isso em mente enquanto pesquisador/a.

4. Fique por dentro das discussões sobre algoritmos, inteligência artificial, etc.

Além de nos comportarmos de modos diferentes em cada uma das plataformas (geralmente de acordo com as audiências às quais nos apresentamos), também somos moldados – ou melhor, moldamos nossas conversas – de acordo com o que está sendo falado, apresentado, compartilhado e/ou debatido em cada uma delas. Acontece que, infelizmente, esse processo de pauta envolve atores que atrapalham/complexificam a “espontaneidade” das conversas: empresas, marcas e as próprias mídias sociais – que possuem um modelo de negócio estruturado para isso.

Muito tem sido discutido – principalmente na academia – sobre as bolhas das mídias sociais, câmaras de eco, viés algorítmico, (des)inteligência artificial e assuntos correlatos. Embora cada temática e cada pesquisa aborde essas problemáticas a partir de uma discussão própria, acredito que o que todas elas possuem em comum é a constatação de que precisamos problematizar (e responsabilizar) as políticas de negócios das big techs, visto que todas as suas tomadas de decisões têm impacto e são impactadas pelo modo como as pessoas utilizam seus serviços.

Da cibercultura à era pós-APIs: um panorama não-oficial dos estudos da internet e das mídias sociais (no Brasil)

Talvez não esteja tão evidente assim, mas o principal intuito deste texto é apresentar algumas ferramentas e técnicas para a coleta/extração e análise de dados de mídias sociais. Para chegar aí, entretanto, estou tentando apresentar várias questões que considero importantes para pesquisadores que pretendem trabalhar com isso. Além dos apontamentos iniciais já apresentados, percebo também a necessidade de explicar onde estamos atualmente. Ou melhor: de onde vimos, como chegamos até aqui e (possivelmente) para onde vamos?

Como tenho tentado enfatizar durante todo o texto, fazer pesquisa sobre a internet, na internet ou com dados da internet não é algo nada novo. O que se proliferou consideravelmente na última década, porém, foi tanto a produção desenfreada de dados aos montes (em todos os aspectos da nossa vida) quanto as possibilidades de obtenção desses dados por diferentes atores e através de diversas capacidades técnicas (para o “bem” e para o “mal”). Como, então, podemos fazer o entendimento desse processo – e por que é tão importante fazê-lo?

No capítulo “Panorama dos Estudos de Internet” do livro “Métodos de pesquisa para internet” (2011), Fragoso, Recuero e Amaral fazem um compilado do que, até então, estava à frente dessa temática. Apresentam a proposta de pensar “os estudos de internet como um campo em constante mudança (Jones, 1999) surgido a partir de diversas disciplinas (Baym, 2005) […] dentro de um contexto sócio-histórico que dialoga com a tradição dos estudos de comunicação, cultura, mídia e tecnologia (Sterne, 1999)”.

Fases dos Estudos sobre Internet	1a Fase (Início dos 90)	2a Fase (Segunda metade dos 90)	3a Fase (Início dos 00)
Wellmann (2004)	Dicotomia entre utópicos e distópicos; a narrativa da história da comunicação parece ter início com a internet.	Inicia por volta de 1998; coleta e análise de dados: documentação e observação sobre os usuários e suas práticas sociais; internet começa a atingir um público maior e mais diverso do que o da fase anterior; pesquisa de opinão e entrevistas; resultados atingidos: apropriações feitas por diferentes classes sociais, gêneros, faixas etárias etc.	Abordagem teórico-metodológica: enfoque na análise dos dados; reflexões sobre padrões de conexões, personalização e comunicação.
Postill (2010)	Hype acerca do próprio surgimento da internet; polarização real versus virtual; internet como esfera autônoma; interações síncronas versus assíncronas.	Análise do objeto internet já inserida dentro do cotidiano; comparações entre a internet e outras mídias; popularização da internet para vários tipos de usuários; amostragem intencional (escolha de casos extremos)	Enfoque nos usos e apropriações; explicitação metodológica.
Observações	Para Postill, sobretudo nas duas primeiras fases, há muita ênfase no hype sobre a própria internet.	Wellmann indica uma predominância na segunda fase dos estudos quantitativos, enquanto que na segunda fase a abordagem qualiquantitativa tem aparecido com mais força.

Tabela 1: Principais fases dos estudos de internet para Wellmann (2004) e Postill (2010).

Na Tabela 1, que reproduzo acima, apontam as fases dos estudos sobre internet a partir de dois autores, elaborando o argumento de se pensá-la não como disciplina, mas como um campo. Chamam a atenção, entretanto, para como essa historicização “merece ser relativizada, no sentido que, corresponde, em grande parte, ao desenvolvimento das pesquisas no contexto anglo-saxão”. No Brasil, apontam que “um direcionamento rumo a pesquisa empírica em internet entra com maior força apenas a partir da segunda metade dos anos 2000”.

Acrescentam que “antes disso [da segunda metade da década], boa parte dos estudos voltava-se a aspectos filosóficos ou até mesmo psicológicos cujas abordagens eram estritamente teóricas e e/ou ensaísticas sem comprometimento com coleta de dados no campo“. Esses estudos, no contexto brasileiro das Ciências Humanas e das Ciências Sociais Aplicadas, encontravam-se sobretudo associado aos estudos de cibercultura e dos estudos de interface humano computador (IHC). Surge, então, a pergunta: o que mudou a partir de 2005 em diante?

Eu fiz essa linha do tempo para apresentar em duas oportunidades que tive de falar com alunos, professores e pesquisadores acadêmicos sobre coleta de dados em mídias sociais (e como chegamos na era pós-APIs). Selecionei algumas obras não necessariamente por relevância ou impacto teórico (no Brasil e à fora), mas para tentar explicar mais ou menos o que aconteceu – a partir da minha interpretação – na primeira década do milênio em termos de internet, sites de redes sociais e, consequentemente, pesquisas que os envolvem de alguma forma.

No início dos anos 2000, as pesquisas e estudos de internet eram muito voltados para uma perspectiva mais sociotécnica – e que vislumbrava várias abordagens, das mais pragmática às mais distópicas/utópicas. Era também o momento em que a World Wide Web se consolidava como uma das grandes “revoluções” do mundo moderno, com várias expectativas realmente revolucionárias do que poderia estar por vir. Havia um entusiasmo muito grande com a possibilidade de conexão e descentralização dos meios de informação/comunicação.

*Outra proposta de reflexões teóricas sobre a cibercultura (SCOLARI, 2009)*

Acho importante também abrir um parênteses para falar do fenômeno da web 2.0, hoje até negligenciado, principalmente em termos de discussão, mas que foi fundamental para a consolidação do que temos atualmente. No início da internet, eram pouquíssimas as pessoas que podiam produzir conteúdo: a web 1.0 era formada por webmasters que sabiam fazer sites (HTML) completamente estáticos e usuários que navegavam por esse espaço; na web 2.0, esse cenário se torna mais dinâmico com a introdução de possibilidades com XML e RSS (de onde nascem os blogs, wikis, etc.).

Em meados dos anos 2000, “entrar” na internet já era algo bastante comum para boa parte da população brasileira. Foi o período de febre das lan houses, dos joguinhos online, da evolução dos discadores para banda largas, etc. – e também o primeiro momento em que um site de rede social ganha força: o Orkut. A meu ver, nessa época, a discussão virtual x offline (herança da década de 90) ainda continuava com bastante força, com muito sendo discutido – inclusive na imprensa – sobre comunidades virtuais, subculturas virtuais e mundos virtuais (Second Life, Habbo Hotel, etc.).

Duas coisas acontecem no final dessa década que, a meu ver, são fundamentais para o que viria a seguir – e estão bastante interligadas: a popularização de smartphones (e, obviamente, a ascensão econômica dos brasileiros para adquirirem esses objetos) e a consolidação da internet móvel (3G). Esse cenário foi fundamental para que, no final dos anos 2000, sites de redes sociais como Facebook, Twitter e YouTube ganhassem a projeção social e econômica que têm hoje em dia. Paramos de “entrar” na internet, que se tornou embutida, incorporada e cotidiana (HINE, 2015).

É também nesse contexto que a World Wide Web, que nasce com um entusiamo de revolução, é cooptada pelas garras do capitalismo nos modelos de negócios desenvolvidos pelas empresas de mídias sociais. Internet vira, de certo modo, sinônimo de redes sociais – um ponto obrigatório de passagem. Da Tabela 2, que também reproduzo do livro de Fragoso et. al, percebemos um redirecionamento dos estudos de internet em termos de abordagem teórica, cada vez mais em direção a pensá-la como artefato cultural e/ou como mídia mesmo.

Abordagem Teórica	Internet como Cultura	Internet como Artefato Cultural	Internet como Mídia
Conceitos	Ciberespaço, vida virtual, cibercultura, descorporificação, desterritorialização.	Online/Offline, incorporada à vida cotidiana, localidade.	Convergência de mídia, vida cotidiana, novas mídias, cultura digital.
Objeto/Campo	Com base no texto: Chats, BBS, IRC, Usenet, Newsgroups, MUDs	Com base na web: Páginas pessoais, websites, mundos virtuais.	Redes sociais, objetos multimídia: Conteúdo gerado por consumidor, Web 2.0.
Metodologia Qualitativa Etnografia	Comunidades Virtuais, Comunicação Mediada por Computador, Identidade Online, Estudos feitos exclusivamente em tela.	Laços sociais, representação de identidade, “estudos além da tela”, apropriação da tecnologia, etnografia virtual.	Etnografia multimídia, etnografia conectiva, etnografia das redes.

Tabela 2: Abordagens teóricas sobre a internet enquanto objeto de estudo. Fonte: Ardevol et al. (2008)

Percebemos, portanto, que, a partir da virada da década, os sites de redes sociais (SRSs) passam a tomar conta, com várias das produções acadêmicas sendo principalmente dedicadas a esses fenômenos. O projeto de pesquisa “Why We Post”, liderado pelo etnógrafo Daniel Miller na University College London busca, desde 2012, compreender os usos e as consequências das mídias sociais no mundo inteiro. No Brasil, temos também a tese “Dinâmicas identitárias em sites de redes sociais” (2014), de Beatriz Polivanov, que vira livro e referência na área.

Essas obras não necessariamente trazem novos paradigmas para o campo da pesquisa na internet, mas atualizam e referenciam muito – o trabalho de Polivanov, por exemplo, traz bastante da produção brasileira das próprias autoras Raquel Recuero, Adriana Amaral, Suely Fragoso, Sandra Montardo, etc. – dos métodos já populares, como (n)etnografia virtual, entrevista em profundidade, etc. No entanto, dando continuidade à promessa da web 2.0, a produção de conteúdo gerado por usuários exige que essas pesquisas também atualizem seus repertórios ferramentais.

Nesse contexto, grupos como o Digital Methods Initiative da Universidade de Amsterdã surgem com alternativas para explorar dados da internet – e, consequentemente, dos sites de redes sociais – em grande escala. O livro “Digital Methods” (2013), de Richard Rogers, líder do grupo, é a publicação que reafirma a iniciativa de estruturar ferramentas capazes de compreender a sociedade através da internet, principalmente sob a perspectiva de redes, rastros de conflito, arquivos de conteúdo, etc. – para estudar cliques, hiperlinks, curtidas, comentários, etc.

Várias outras publicações também surgem nesse mesmo momento com o intuito de pensar métodos para fazer pesquisas com/nas mídias sociais, mas aqui chamo a atenção para essa produção do DMI devido à proposta do grupo de produzir principalmente um aparato técnico que desse conta desse novo cenário. E se hoje estamos vivendo a era da pesquisa “pós-APIs”, é porque foi nesse momento – e também com a ajuda de projetos como esse, muito ancorados nas lógicas das APIs – que a coleta de dados de mídias sociais pôde se popularizar tanto.

Para explicar isso, vou ter que voltar um pouquinho na nossa historicização da web. Quando os sites de redes sociais surgiram, eles eram também fruto da lógica da web 2.0 (que, como expliquei, teve como primeiros produtos os blogs e wikis, mas cuja evolução disso fica evidente na proposta das mídias sociais). Essa lógica da cultura colaborativa trazia consigo um estímulo de co-desenvolvimento para que as pessoas também pudessem criar e elaborar projetos em cima de estruturas e códigos já previamente estabelecidos (que é a cultura da programação até hoje).

As APIs (Application Programing Interface), que são basicamente “séries de comandos que permitem a usuários e aplicativos se comunicarem com os sites e requisitarem dados hospedados em seus servidores” (ALVES, 2017, p. 2016), foram lançadas praticamente junto às próprias mídias sociais. Foram a partir delas que vários aplicativos ganharam também bastante popularidade – como aqueles joguinhos do Facebook de meados de 2010 (Farmville, Colheita Feliz, SongPop), ou o antigo Twitpic de quando o Twitter ainda não permitia publicar imagens.

Foi a partir dessa oportunidade que muitos dos softwares acadêmicos desenvolvidos no final da primeira década dos anos 2000 e início da década seguinte ganharam também muita força, sendo talvez a Netvizz (do DMI), que permitia coletar dados do Facebook, a grande protagonista de toda essa história. Infelizmente, não por um bom motivo: quando os problemas começaram a vir à tona, a ferramenta foi aos poucos enfrentando limitações cada vez mais severas. O próprio Rogers, que ajudou a popularizar as ferramentas do seu grupo, foi forçado a admitir:

Ao construir as infraestruturas necessárias para apoiar e rastrear a crescente quantidade de interações online e ao tornar os registros resultantes disponíveis através das APIs, as plataformas reduziram significativamente os custos dos dados de mídias sociais. A facilidade da pesquisa com APIs veio com o preço de aceitar a padronização particular operada pelas plataformas de mídias sociais e o enviesamento que vem junto. […] Num frenesi consumista, nós estocamos dados como commodities produzidas em massa. A pesquisa com APIs é culpada (pelo menos em parte) por espalhar o hype dos dados de mídias sociais, reduzindo a diversidade de métodos digitais ao estudo de plataformas online, e por espalhar as ideias pré-concebidas de que o Facebook, o Google, o Twitter e seus semelhantes são os mestres do debate online, e não há alternativas a não ser viver sob as migalhas de suas APIs.
(VENTURINI, ROGERS; 2019)

A “era das APIs” realmente facilitou muito uma das etapas do processo metodológico de pesquisa com dados de mídias sociais, a coleta/extração dos dados, mas a verdade é que muita pesquisa já foi feita – inclusive no mesmo período – sobre mídias sociais sem necessariamente depender dessa alternativa. O próprio termo “pós-APIs” parece, hoje, demasiadamente apocalíptico, visto que várias plataformas continuam com APIs ainda bastante favoráveis principalmente àqueles interessados a realizar pesquisa acadêmica com dados de mídias sociais.

O Twitter lançou recentemente uma versão de sua API exclusiva para acadêmicos com acesso inédito a um volume de dados jamais visto até em algumas das suas opções pagas. O YouTube continua com a API funcionando relativamente bem, com ferramentas como o YouTube Data Tools (DMI) ainda no ar. Até mesmo o Facebook, maior site de rede social da atualidade, que começou a fechar sua API em 2015 e depois do seu afiliado Instagram em 2016, hoje tem a CrowdTangle como alternativa oficial da empresa para pesquisadores acadêmicos.

Ainda temos um cenário bastante próspero para quem deseja trabalhar com coleta de dados de mídias sociais, embora os tropeços dos últimos ainda. É importante, entretanto, ter em vista que “muitos dados” não é necessariamente o equivalente a uma pesquisa melhor, mais válida ou mais rica. Essa perspectiva positivista pela evidência quantitativa eufórica não é o legado que duas décadas de estudos de internet nos deixa, com um vasto repertório de métodos qualitativos sendo explorados, discutidos e potencializados no Brasil e à fora.

Abordagens e ferramentas de coleta para mídias sociais – quais dados estão disponíveis?

Há basicamente três maneiras para se coletar dados de mídias sociais (em 2021): via APIs, raspagem de dados (web scraping) ou manualmente. Qual é a diferença entre cada um deles e o que isso implica? Antes de responder essa pergunta, preciso admitir uma coisa: quando estou falando aqui de “dados de mídias sociais”, estou me referindo principalmente às publicações que são feitas pelos usuários (o famoso UGC – user-generated content) e/ou às informações semipúblicas disponíveis a nível de usabilidade das plataformas (seguidores, por exemplo).

No entanto, é evidente que os dados que geramos nas mídias sociais correspondem a muito mais do que isso. Cliques, alcance, tempo em tela, taxa de rejeição (bounce rate), dentre várias outras métricas também podem ser consideradas para análise de mídias sociais. No mercado de comunicação digital, essa diferença se estabelece nas definições de monitoramento e métricas, em que a segunda está muito mais associada a dados fornecidos pelas próprias plataformas cujo foco está na mensuração para otimização de objetivos de negócios (venda, awereness, etc.).

O foco das pesquisas com dados de mídias sociais, portanto, costuma ser as conversações em rede – ou seja, o conteúdo (das mensagens ou dos perfis) ou as próprias interações. É por isso que a análise de redes se popularizou tanto nas últimas décadas, por fornecer o aparato técnico-metodológico (e teórico) para compreendermos principalmente a lógica de conexões das redes – que estão nas trocas de mensagens, mas também na associação entre os atores (amizade, seguidores, vídeos relacionados, etc.), disseminação de (des)informação, etc.

Para gerar essas redes com centenas, milhares, às vezes milhões de conexões, alternativas de coleta via API ou web scraping facilitam muito o processo – o que não quer dizer que uma rede não possa também ser produzida manualmente. O mesmo vale para a análise de conversação/conteúdo, que também ganhou bastante notoriedade nas produções acadêmicas da última década. Na tabela abaixo, apresento de modo bastante simplificado/didático quais são as principais diferenças entre essas três opções de coleta, já listando algumas ferramentas.

	APIs	Raspagem de dados (web scraping)	Coleta manual
Como utilizar?	– Ferramentas plenas comerciais – Softwares acadêmicos – Códigos e scripts de programação	– Códigos e scripts de programação	– Copia e cola – Captura de tela
Limitações e implicações	– Dados disponíveis de acordo com a documentação de cada plataforma	– Prática vai contra os Termos de Serviço das plataformas – Pode ter consequências operacionais e até jurídicas	– Assim como raspagem, envolve questões éticas da privacidade dos usuários
Exemplos de ferramentas ou softwares	– Netlytic, YouTube Data Tools, Facepager	– Twint, SNScrape, Instagram-Scraper	– Spreadsheets, Excel, LibreOffice

Fazer a extração/coleta de dados via API significa basicamente utilizar das portas de acesso que as próprias plataformas disponibilizam para terceiros terem acesso a seus dados. Essa prática diz respeito ao modo como a web, que surgiu otimista pela descentralização de acesso, tem se transformado cada vez mais em plataformas proprietárias de empresas – como no caso das mídias sociais. A plataformização da web diz respeito a um modelo econômico dominante e as consequências da expansão das plataformas de redes sociais em outros espaços online.

O pesquisador brasileiro Marcelo Alves traz esse argumento da pesquisadora Anne Helmond – integrante do Digital Methods Initiative (DMI) – em que explica que “as APIs permitem fluxos de dados cuidadosamente regulamentados entre plataformas sob a forma de APIs abertas ou APIs proprietárias”. Essas infraestruturas programáticas que definem barreiras e se comunicam com o restante da web por meio de aplicações direciona a política de fluxo de dados, nas quais os planos de negócio das empresas são representadas através de permissões e leis de acesso.

Gráfico do artigo *“Is the Sample Good Enough? Comparing Data from Twitter’s Streaming API with Twitter’s Firehose”* comparando a mesma coleta através de duas APIs do Twitter

Há, portanto, dois pontos importantes em relação às APIs: suas documentações e chaves de acesso (token). As primeiras geralmente são disponibilizadas publicamente nos sites das plataformas (com dicionários sobre pontos de exportação, informações para consultas, erros comuns, etc.), mas a segunda exige uma requisição a ser solicitada (para conseguir uma chave). São diversos níveis de autorização, acesso e proibições de pontos de dados, cuja diversidade dos metadados está de acordo com as permissões concebidas (ALVES, 2018).

Em termos práticos, portanto, é imprescindível que os pesquisadores interessados nos dados dessas plataformas entendam como ler a documentação fornecida e aprendam a operacionalizar as interfaces para tirar o máximo de proveito de acordo com seus objetivos. Isso implica, entretanto, ter o mínimo de conhecimento de programação para saber como fazer requisições aos servidores do Facebook, Twitter ou YouTube – o que dificulta um pouco esse processo, como também é o caso para a opção de raspagem de dados (scraping).

É por isso que várias ferramentas/softwares foram desenvolvidas na última década a partir de iniciativas como a DMI para facilitar o acesso de pesquisadores acadêmicos aos dados fornecidos via API. Já citei aqui algumas delas, como: a falecida Netvizz que permitia acesso a dados do Facebook; a Netlytic e sua irmã mais nova, Communalytic, desenvolvida por pesquisadores da Social Media Lab com funcionalidades robustas de análise (de redes, inclusive) a partir da coleta de dados do Twitter, YouTube, Facebook/Instagram; e a YouTube Data Tools.

Todas essas fazem (ou faziam, como no caso da Netvizz) uso das APIs das plataformas, o que pode ser um grande facilitador em vários sentidos. No entando, apesar dos benefícios de interfaces que não exigem conhecimento de programação e repositórios online independentes da nossa máquina pessoal, o maior problema delas também está no trunfo das APIs e suas limitações. A versão gratuita para desenvolvedores, do Twitter, por exemplo, até recentemente só permitia a coleta de alguns milhares de tweets a cada 15 minutos e com um retroativo de até, no máximo, 7 dias.

É nesse contratempo – de modo mais amplo – que surge a alternativa de raspagem de dados (ou scraping, em inglês), que nada mais é do que um procedimento automatizado de uma coleta que você também poderia fazer manualmente. Isso porque essa técnica geralmente extrai os dados a partir de uma linguagem de marcação (HTML) do seu código-fonte, na qual “o mecanismo exibe a página e procura na linguagem de marcação pelas partes específicas referentes aos dados que precisamos” (ALVES, 2018, p. 24).

A maior dificuldade de se trabalhar com web scraping é ter o mínimo de conhecimento de programação para saber como rodar scripts em Python e R. No entanto, trabalhar com APIs também exige um conhecimento de técnicas e linguagem de programação para poder fazer as requisições (e até mesmo ler as documentações de acesso). A boa notícia é que para ambos os casos há vários scripts – códigos escritos por programadores, desenvolvedores, etc. – disponibilizados publicamente em repositórios como o GitHub.

Para quem não quer utilizar as ferramentas acadêmicas já citadas (que podem custar caro no bolso brasileiro) para extração via API, há projetos como o Facepager e o Social Feed Manager que já fazem boa parte do trabalho de programação por você, sendo necessário apenas alguns ajustes de configuração do acesso. Já quem não possui boas chaves de API à disposição, alguns scripts de raspagem como o Twint, o Instagram-Scraper e o SNScrape podem ser interessantes. Acima, compartilho vídeos-tutoriais de como instalar o Python para utilizá-los.

Além de todas as opções, há três iniciativas que estão constantemente atualizando suas listas de ferramentas para pesquisa em mídias sociais: o Social Media Research Toolkit do Social Media Lab/Social Media Data (com uma catalogação detalhada de variáveis importantes), o wiki Social Media Data Collection Tools organizado pelo Deen Freelon; e as ferramentas do médialab Sciences Po. Em seu blog institucional, o pesquisador Wasim Ahmed também já fez levantamentos de ferramentas em 2015, 2017, 2019 e recentemente em 2021.

Na tentativa de agregar todas essas ferramentas levantadas por esses repositórios e também incluir outras opções interessantes – inclusive projetos brasileiros, como o LTweet do LABCOM da UFMA -, criei recentemente uma planilha (ainda em construção – interessados em colaborar podem entrar em contato comigo!) para compartilhamento dentre a comunicade de pesquisadores brasileiros. No final das contas, o que fica evidente é que opção não falta para conseguirmos algum jeito de coletar/extrair dados de mídias sociais – a escolha é sua.

Para continuar estudando: uma nota pessoal, referências e métodos/metodologias mais comuns

Tentei, ao longo deste post, construir a minha fala em cima de vários referenciais teóricos e uma perspectiva mais impessoal sobre o assunto. Gostaria de finalizá-lo, entretanto, carregando um pouco a mão no eutnocentrismo, começando pelos motivos que me fizeram escrevê-lo, que são três: um pedido de ajuda de uma mestranda da USP, uma fala para alunos da graduação do curso de Estudos de Mídia da UFF e uma oficina que ministrei junto à minha querida amiga Aianne Amado para graduandos, mestrandos, doutorandos e doutores da UFS/UnB.

Esses três eventos aconteceram (não simultaneamente) nos últimos dois meses e me fizeram não só refletir, mas levantar e preparar um material didático para esses três diferentes públicos que tinham o mesmo interesse: aprender como coletar e analisar dados de mídias sociais. Para cada um deles, eu tive que desenvolver um modo diferente de explicar tudo isso que falei aqui (nem com tanta profundidade ou entrando em tantos detalhes como fiz agora), levando em consideração o nível – e a formação – de conhecimento de cada um.

Escrevi este texto com o intuito de compilar tudo que pude passar nessas três ocasiões, agregando já as discussões que conseguimos propor em alguns deles, com o intuito principal de ser realmente um guia (introdutório) para quem deseja trabalhar com dados de mídias sociais. Há muito mais do que eu trouxe aqui, mas imagino (espero) que o que pude apontar – e questionar – sirva de contribuição para você, que está lendo até agora. A minha proposta nunca foi a de esgotar as possibilidades, mas abrir os horizontes para futuros navegantes.

Acho também importante colocar que embora a minha formação (graduação) seja em Estudos de Mídia/UFF, muito do que eu aprendi e conheci veio do meu trabalho no IBPAD, com a mentoria do meu mestre, Tarcízio Silva. Foi sob sua orientação que produzi o material “100 Fontes sobre Pesquisa e Monitoramento de Mídias Sociais”, com o qual descobri vários dos autores que citei; foi também onde aprendi a mexer na Netvizz, no YouTube Data Tools e no Netlytic; além da prática de análise de redes com o Gephi e, depois, com a WORDij.

No mestrado, optei por seguir para uma área interdisciplinar menos voltada para Comunicação, o que fez com que eu tivesse que estudar sobre métodos digitais por conta própria. É realmente muito desafiador se manter atualizado de todas essas discussões e dos próprios fenômenos digitais nesse campo em constante mudança que é a internet, mas tento acompanhar vários pesquisadores da área através do Twitter, para ficar de olho no que há de mais novo (no sentido de inovador mesmo) em termos de metodologias, ferramentas e técnicas.

No entanto, é importante que não nos deixemos cair no deslumbramento do que está no hype somente pelo hype (como fizeram os primeiros estudiosos de internet). É preciso olhar constantemente para trás – vide a tabela 3, do livro bastante citado aqui de Fragoso et. al (2011) – a fim de entendermos como conseguimos avançar sem necessariamente reinventar métodos já consolidados, mas pensar como podemos agregar novas metodologias aos cenários atuais e emergentes – como tem sido feito constantemente com as abordagens chamadas “métodos mistos”.

Objetos	Alguns métodos apresentados na literatura
Blogs Fotologs Videologs Moblogs Microblogs	Análise de conteúdo Análise de discurso Etnografia + ARS Entrevistas Estudo de caso Observação participante Método Biográfico Estatísticas
Páginas Pessoais Websites	Análise de Hyperlinks Etnografia Estudo de Caso Análise de webesfera Webometria
Portais	Estudo de caso – Método GJOL Etnografia Entrevistas em profundidade Análise documental
Mundos virtuais MMORPGs	Interacionismo simbólico Etnografia Semiótica Análise documental
Fóruns Chats Listas de discussão IRC	Pesquisa de opinião (survey) Observação Participante Entrevista Teoria Fundada
Sites de Redes Sociais	ARS Etnografia ARS + Etnografia Grupo Focal Online Entrevista em profundidade Análise de Conversação

Tabela 3: Algumas ferramentas digitais e métodos já utilizados em suas análises.

Temos no Brasil diversos pesquisadores, grupos, laboratórios e departamentos com um vasto repertório de pesquisa sobre internet: na UFBA, o GITS e o Lab404; na UFMA, o já citado LABCOM; na UFPel, o MIDIARS; na UFF, o MidiCom, o coLAB e o CiteLab; para citar apenas alguns. O Instituto Nacional de Ciência e Tecnologia em Democracia Digital (INCT.DD) tem toda uma rede de pesquisa com grupos de diversas universidades brasileiras voltado a pesquisar comunicação, internet e política. São atores que dão o tom da pesquisa em mídias sociais no Brasil.

Lá fora, além do tão citado DMI, indico também o iNOVA Media Lab, responsável pelo projeto #SMARTDataSprint, que vem desde 2018 atualizando e provocando vários dos paradigmas propostos pelos métodos digitais. Em português, deixo aqui a minha recomentação também para a obra “Métodos Digitais: teoria‐prática‐crítica”, organizado pela pesquisadora Janna Joceli Omena, que traz textos inéditos e traduções de importantes discussões sobre a temática. Em inglês, há o já citado Social Media Lab, a Social Media Research Foundation e a Association of Internet Researchers.

Networks, Hashtags, Memes: A Quali-Quantitative Approach for Exploring Social Media Engagement from Janna Joceli Omena

Finalizo este post com o mesmo tom que iniciei: muita calma com essa euforia por dados. Vivemos, de fato, um momento histórico em que nunca houve tantos dados à nossa disposição – e isso vem com várias ponderações, técnicas, ferramentais, éticas e políticas. Tentei apontar aqui algumas delas, mas enquanto pesquisadores acadêmicos acredito que precisamos ter sempre uma responsabilidade social que amplie e atribua as preocupações aos seus devidos lugares, usos e desusos desses meios em vários sentidos.

Também peço calma aos novos navegantes, que foram possivelmente bombardeados com todas essas informações de uma vez só. Eu admito: não li – por completo – todos os livros, teses ou dissertações que cheguei a citar por aqui. Conheço porque chegaram a mim e sei que são importante no cenário geral, mas sei que minha jornada ainda é muito nova para ter todo esse repertório debaixo do braço. O que eu recomendo é pelo menos saber do que se trata cada um desses apontamentos e discussões, para que seja aprofundado quando – e se – necessário.

Acredito também que precisamos pensar coletivamente enquanto comunidade acadêmica sobre essas diferentes perspectivas de se fazer pesquisa: ferramentas, métodos/metodologias e também epistemologias. A sensação que eu tenho é que, no Brasil, ficamos cada um no respectivo cantinho produzindo sobre nossas temáticas e assuntos de interesse, sem necessariamente discutir como estamos desenvolvendo essas pesquisas. A própria lógica e burocracia científica atrapalha de publicação não acompanha a velocidade de tantas mudanças – o que torna ainda mais urgente pensarmos como podemos manter de pé toda essa conversa.

Referências bibliográficas

ALVES, Marcelo. Abordagens da coleta de dados nas mídias sociais. In: SILVA, Tarcízio; STABILE, Max (Orgs.). Monitoramento e pesquisa em mídias sociais: metodologias, aplicações e inovações. São Paulo: Uva Limão, 2016.
ARDÈVOL, Elisenda., et al. Media practices and the Internet: some reflections through ethnography. 2008. Apresentação no Simposio del XI congreso de antropología de la FAAEE, Donostia, 10-13 de septiembre de 2008. Disponível em: . Acesso em: 01/02/2010.
FRAGOSO, Suely; RECUERO, Raquel; AMARAL, Adriana. Métodos de pesquisa para internet. Porto Alegre: Sulina, v. 1, 2011.
HINE, Christine. Ethnography for the Internet: Embedded. Embodied and Everyday (London: Bloomsbury Academic), 2015.
RECUERO, Raquel; BASTOS, Marco; ZAGO, Gabriela. Análise de redes para mídia social. Editora Sulina, 2015.
RECUERO, Raquel. Redes sociais na Internet. Porto Alegre: Sulina, 2009.
VENTURINI, Tommaso; ROGERS, Richard. “‘API-Based Research’ or How Can Digital Sociology and Digital Journalism Studies Learn from the Cambridge Analytica Affair.” Digital Journalism, 2019.
WELLMAN, Barry. The three ages of internet studies: ten, five and zero years ago. New Media & Society. London, Vol. 6 Issue 1, p. 123-129, 2004.

Materiais de apoio

Coleta de Dados em Midias Sociais para Pesquisa Acadêmica de Tarcízio Silva

Extração de dados altmétricos das mídias sociais de Marcelo Alves

Dados para pesquisas sociais from Débora Zanini