Coleta de dados relacionais nas mídias sociais, da Escola de Verão de Estudos de Mídia

Nos dias 13 e 14 de fevereiro tive a oportunidade de participar do curso “Coleta de dados relacionais nas mídias sociais” que aconteceu na Universidade Federal Fluminense a partir do projeto Escola de Verão de Estudos de Mídia.  Atendendo majoritariamente mestrandos e doutorandos (e eu, intruso), o conteúdo foi ministrado por Marcelo Alves, doutorando no PPGCOM/UFF e membro do grupo de pesquisa Lamide – Laboratório de Mídia e Democracia, além de autor do capítulo Abordagens de coleta de dados nas mídias sociais” do livro Monitoramento e Pesquisa em Mídias Sociais: metodologias, aplicações e inovações, sobre o qual falarei melhor em outro post específico sobre a coletânea.

Além da publicação, vale também – antes de entrar no conteúdo apresentado no curso – recomendar alguns outros materiais do pesquisador. No material “100 Fontes sobre Pesquisa e Monitoramento de Mídias Sociais” do IBPAD há algumas indicações de artigos, capítulos, posts e de sua tese, mas reforço aqui algumas indicações que ele mesmo recomendou especificamente para o curso: “Bridging semantic and social network analyses: the case of the hashtag #precisamosfalarsobreaborto (we need to talk about abortion) on Twitter”, “Agentes de campanha não-oficial: A Rede Antipetista na eleição de 2014” e “Internet e campanha eleitoral no Brasil: a Blogosfera Progressista Ampliada e a Rede Antipetista” – além do trabalho na Vértice, onde produziu algumas análises interessantes no período das campanhas eleitorais para prefeito do Rio de Janeiro em 2016.

Entrando finalmente no curso, acho importante ratificar que a proposta não era aprofundar em análise, mas entender alguns conceitos e premissas importantes para a coleta de dados – principalmente de olho nas famosas APIs. Esta deve ser uma das buzzwords mais populares do mercado principalmente de monitoramento, mas, ainda assim, pouco se debate de fato sobre o que ela faz, o que ela entrega, como entrega, quais as possibilidades de entrega, etc. Uma dos objetivos do curso, portanto, foi apresentar aos alunos uma introdução da leitura da documentação da API. Antes disso, no entanto, houve uma preocupação de passar alguns dos principais e gerais conceitos sobre um novo cenário comunicacional, abordando algumas temáticas sobre novas mídias, comunicação política de análise de redes sociais.

A começar por uma “desmistificação” de algumas concepções comuns no imaginário social sobre a ideia de cauda longa: as lógicas de rede não estão tomando o lugar da lógica de massa; as plataformas de mídias sociais seguem outras regras de jogo; e a mídia de massa e o conteúdo jornalístico continuam sendo uma das principais fontes de informação – as duas lógicas não estão estáticas, mas em constante evolução. Como explicam Klinger e Svensson (2014), “Plataformas de mídias sociais operam de uma forma diferente à mídia de massa tradicional, sobrepondo-a. Isso gera maneiras diferentes de produzir conteúdo, distribuir informação e usar a mídia”. Retomando o famoso conceito da cauda longa, esse artigo também me lembrou essa matéria do The Economist: “Mass entertainment in the digital age is still about blockbusters, not endless choice”.

Lógicas da comunicação política em massa e em rede (Klinger e Svensson, 2014)

Ainda no contexto de comunicação política, Chadwick (2013) fala sobre sistemas midiáticos híbridos: “baseado em conflito e cooperação entre lógicas novas e antigas; mas também possui considerável grau de interdependência entre estas lógicas”, ou seja, há uma convergência midiática em que todos os atores estão entrelaçados. Em outras palavras, o que esses autores – e a matéria do The Economist – querem dizer é que a internet (e principalmente as mídias sociais) não vieram para democratizar completamente a mídia como conhecemos. As plataformas digitais de conteúdo gerado pelos próprios usuários se sobrepõem à uma lógica de massa não indissociável, mas interdependente e ainda bastante pautada no investimento financeiro – quem tem mais dinheiro consegue ter mais voz com mais facilidade.

Seguindo com o argumento de Chadwick (2007), nesse novo cenário de repertórios digitais em redes e hibridismo organizacional, surgem duas tendências paralelas: as organizações políticas tradicionais adotam e modificam seletivamente características de movimentos sociais; e surgem novas formas organizacionais intrínsecas à internet. No ciclo de informação política (Chadwick, 2010), há um maior número e maior diversidade de atores; estruturas temporais mais rápidas e complexas; participantes que tangenciam as elites políticas midiáticas; e diversificação das fontes de informação. Para mais informações sobre o assunto, recomendo conferir a apresentação disponibilizada no Slideshare — que já serve de gancho para darmos continuidade ao post:

Para dar conta, portanto, desse ambiente midiático híbrido, plural e pulsante, “surgem” as técnicas de análise de redes sociais. Antes, entretanto, vale reforçar alguns pontos importantes sobre a ideia de esfera pública em rede (Benkler et al., 2013): “arena alternativa para o discurso e debate público, uma arena que é menos dominada pelas grandes organizações midiáticas, menos sujeita ao controle do governo e mais aberta a participação ampla”. Acrescentando à ideia de pluralidade, essa esfera pública se apresenta “como um ecossistema complexo de canais de comunicação que coletivamente oferecem um ambiente que conduz a expressão política e a criação de diversas formas organizacionais” – o que me lembrou esse artigo do Axel Bruns (que eu ainda não li, mas fica a recomendação bibliográfica).

Com tudo isso em mente, chegamos à solução encontrada para os problemas supracitados: análise de redes sociais. Coloquei entre aspas ali em cima o “surgimento” dessa técnica porque ela não é contemporânea das mídias sociais – no capítulo “Análise de redes para mídias sociais” do livro já citado do IBPAD, Tarcízio Silva e Max Stabile mostram como essa é uma metodologia comum à Sociologia já há algumas décadas. Recomendo novamente a leitura do capítulo para uma compreensão mais detalhada sobre o assunto (embora ainda assim seja bem introdutório, visto o extenso repertório que pesquisadores brasileiros como Fábio Malini e Raquel Recuero têm sobre o tema), mas o importante aqui é entender duas coisas básicas.

Primeiro que, na internet, estamos sempre produzindo rastros sociais digitais. Esses rastros seguem lógicas das próprias plataformas – sejam elas websites, fóruns, lojas de e-commerce, etc. -, mas, quando falamos de mídias sociais (principalmente Facebook e Twitter), muitas dessas dinâmicas e fenômenos sociais podem ser assimilados a uma compreensão do conhecimento já comum às Ciências Sociais. Ou seja – e aqui já entramos no segundo ponto -, é nesse contexto que compreendemos as redes sociais nas mídias sociais. O foco da técnica de ARS está justamente em entender uma rede social (online ou não) em sua estrutura e dinamismo social, pensando como diferentes atores se conectam, influenciam e relacionam.

Parte-se da análise de como os nós se conectam e relacionam para realizar a análise que, posteriormente, pode agregar dados de atributos e outros. E as conexões podem ser de diversos tipos, intensidades e direções. Na análise de redes sociais, os nós são elementos analisados que podem ser individualizados, e representam algum ator social, grupo social ou produto realizado por estes. (SILVA; STABILE, 2016)

A partir disso nós conseguimos compreender do que se trata o “relacionais” do nome do curso: são dados que possuem duas informações distintas – atributos dos atores e a relação entre eles, ou seja, além de observar o conteúdo, preocupa-se também em analisar como esse conteúdo (a interação) se estrutura socialmente. É aqui também que podemos introduzir alguns termos importantes na ARS: ator/nós/vértices (componente individual), laços/arestas (ligações entre atores), clusters (subconjuntos identificados pela densidade), rede (totalidade de atores e ligações da amostra). No curso, não entramos em detalhes sobre essas definições e conceitos (embora sejam bem simples), uma vez que a proposta não era na parte de análise, mas de coleta.

Mas por que essa metodologia se tornou uma das principais para análise de dados nas mídias sociais nos últimos anos? Segundo Silva e Stabile (2016), “nos ambientes online, a abundância de laços fracos aumenta a probabilidade de os indivíduos acessarem conteúdos, nichos e experiências a que não teriam acesso através de suas redes mais próximas”. E o que seriam esses laços fracos? No livro, eles retomam um estudo sociológico de 1983 para falar sobre o assunto. No curso, vimos os conceitos de rede associativa/de afiliação (ligações mais estáveis e duradouras, como seguir páginas/solicitações de amizade) e redes emergentes (ligações mais circunstanciais, como menções/RT), de Recuero. Para mais detalhes, recomendo este post que fiz sobre outro artigo da Recuero que também fala sobre o assunto.

Retomando o conteúdo do curso, falemos sobre as famosas APIs. Como já mencionei anteriormente, é uma sigla bastante famosa entre profissionais de inteligência (monitoramento, métricas, BI, etc.), mas pouco se discute no mercado sobre suas atribuições técnicas. Na minha (humilde) opinião, isso acontece porque há uma palpitação nervosa no mercado quando falamos de discutir metodologia. Enquanto isso, na academia, onde a metodologia precisa ser esmiuçada e destrinchada com profundidade e responsabilidade técnico-científica, muito se avança no debate sobre APIs, por exemplo. E esse debate é de extrema importância, uma vez que (retirado do slide):

  • As políticas de cessão de dados de cada plataforma são documentadas nas APIs;
  • APIs são tanto documentos técnicos quanto reflexos das diretrizes empresariais de fornecimento de dados;
  • APIs são modificadas frequentemente, de acordo com as necessidades e interesses mercadológicos das organizações;
  • As documentações mostram quais requisições são possíveis (queries), em qual volume (rate limit) e com quais parâmetros.

O único momento em que o mercado discutiu sobre API foi quando as agências e os profissionais de monitoramento tiveram que informar aos clientes que já não conseguiriam mais monitorar publicações do Facebook. Novamente, na minha (humilde) opinião, penso que essa falta de debate impede um maior avanço para a criação de novas técnicas de análise de dados que enriqueçam ainda mais a inteligência a ser extraída das mídias sociais. No curso, exploramos a própria interface que o Facebook disponibiliza para fazer a conexão com sua API e retornar os dados – basta ter uma conta na plataforma para conseguir um token de acesso. Para os leigos, talvez aqui fique mais claro: a API funciona como um plug que conecta os dados da plataforma com o “mundo externo”, fazendo essa conexão de banco de dados.

Como membro da academia, Marcelo tem uma preocupação especial com o debate sobre métodos e metodologia de pesquisa. Não vou entrar muito nesse mérito porque é um assunto razoavelmente denso, mas recomendo mais uma vez a leitura de sua produção científica e até mesmo as informações da apresentação disponibilizada, nos slides sobre técnicas de amostragem em métodos digitais (Rieder, 2012) e adaptando os métodos para coleta relacional no Facebook (CF. Bruns e Burgess, 2014) – além dos registros em seu blog, onde aborda com minúcia essas questões. Há também no capítulo do livro do IBPAD uma proposta metodológica que tenta dar conta do escopo de pesquisa no Facebook.

O mais importante desse debate agora é a conclusão: para dar conta das dinâmicas relacionais que acontecem na atmosfera política midiática, decidiu-se pela utilização do método de amostragem por grafos e da bola de neve. Essa metodologia pode ser superficialmente compreendida nesse estudo do IBPAD, que utiliza da mesma técnica de pesquisa. Em suma, trata-se de elaborar um mapeamento de fan-pages que liste nós-sementes temáticos e/ou homogêneos e, a partir deles, siga como uma bola de neve coletando outras páginas (mais detalhes sobre essa etapa pode ser vista no slide 39).

Para levantar essa lista, há duas possibilidades: pode ser feita através de um simples pedido de “busca” nas plataformas (neste caso, no Facebook) ou a partir de uma lista já pré-estabelecida sobre uma mesma temática (ver slide 40 e 41). Essa lista, entretanto, só nos oferece a primeira instância dos dados. Como o foco aqui são dados relacionais, é preciso fazer um pedido na API também pelos atributos de conexão entre as páginas. Ou seja, a partir da lista inicial, seguimos como uma bola de neve coletando páginas relacionadas (na prática, são as páginas curtidas pela primeira) para depois solicitar todos os seus dados. No slide abaixo é possível ver como seria essa query.

A ferramenta que utilizamos para fazer essa coleta a partir da API no Facebook (e que também atua no Twitter) foi a Facepager. Com código aberto, foi programada em Python 2.7 e por isso possui alto grau de liberdade para os usuários operarem as requisições (além de introduzir conceitos importantes de data mining como query, data munging, data storage, log de processos, etc.). Por isso também é uma ferramenta bem “cascuda”, com uma interface não tão amigável que pode assustar quem não possui uma simpatia com processamentos de programação – para essas pessoas, a Netvizz pode ser uma boa opção. Para ARS, por exemplo, a Netvizz já dá o GDF pronto, enquanto na Facepager você que organiza as ligações entre as páginas (ver slide 46).

Para apresentar a ferramenta com cuidado, mostrando todas as suas funções e possibilidades, seria preciso outro post somente sobre ela. Para uma introdução básica, entretanto, compartilho abaixo um vídeo-tutorial que encontrei no YouTube que mostra algumas das suas funcionalidades básicas. O importante, entretanto, é compreender que – também a partir dessa ferramenta – há uma enorme possibilidades de diferentes níveis e tipos de dados a serem coletados através da API do Facebook. Para isso, faz-se necessário que pesquisadores – da academia ou do mercado – debrucem-se sobre a documentação disponibilizada pela plataforma, para tentar compreendê-la em sua plenitude.

Por fim, gostaria de agradecer formalmente ao Marcelo por poder participar do curso (visto que eu era o único graduando – nem graduado! – ali). Tenho bastante interesse em ampliar meus conhecimentos acadêmicos sobre métodos de pesquisa digitais e fiz este post menos como uma resenha ou revisão do conteúdo, mas mais como forma de expandir a divulgação de uma bibliografia que pode chegar a mais e mais pessoas que podem tê-la como útil. No mais (e para finalizar), reforço que tanto na teoria quanto nas técnicas a academia têm muito a oferecer ao mercado.

Referências bibliográficas

Em: ALVES, Marcelo. #VEM Coleta de dados relacionais. Slideshare, 2017.

SILVA, Tarcízio; STABILE, Max (Orgs.). Monitoramento e pesquisa em mídias sociais: metodologias, aplicações e inovações. São Paulo: Uva Limão, 2016.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *


Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.