Tag: API

Pesquisa com APIs pós-Cambridge Analytica

Em setembro do ano passado, trouxe aqui para o blog o texto “Computational research in the post-API age”, do pesquisador Dr. Deen Freelon,  no qual ele faz algumas considerações sobre o futuro da pesquisa computacional no que ele chamou de “era pós-APIs”. Dando sequência ao debate levantado naquele momento, trago desta vez outro texto de pesquisadores também renomados, Tommaso Venturini e Richard Rogers, no qual discutem sobre o futuro da pesquisa em mídias sociais após o escândalo da Cambridge Analytica – e suas devidas consequências.

Antes de entrar no texto, uma rápida contextualização (para quem não trabalha na área): 2018 foi o ano que o Facebook mais fechou o cerco quanto ao acesso irrestrito aos dados dos usuários; isso aconteceu principalmente devido aos problemas ocorridos nas eleições norte-americanas que elegeram Donald Trump e culminou numa audiência pública de Mark Zuckerberg diante do congresso de senadores. No rascunho “‘API-based research’ or how can digital sociology and journalism studies learn from the Cambridge Analytica affair”, que estará no livro Digital Journalism (a ser lançado), Venturini e Rogers partem do escândalo da CA para discutir o futuro da pesquisa com APIs e a importância de desenvolver uma prática de trabalho de campo digital mais sólida e diversa.

“Dentre outros motivos, as eleições presidenciais de 2016 serão lembradas pela revelação de que seu resultado pode ter sido afetada pela Cambridge Analytica, uma vergonhosa agência de marketing que ilegitimamente coletou dados de milhões de usuários do Facebook e os utilizou para a campanha de Donald Trump. O escândalo estimulou um vasto debate sobre a frouxidão da proteção de privacidade nas mídias sociais e forçou o Facebook a prometer uma redução drástica das informações disponibilizadas pela sua API.”

(VENTURINI; ROGERS, 2019)

O artigo se desenvolve sob dois pilares: primeiro, quanto aos “aprendizados” que todos nós – pesquisadores, mas também usuários e pessoas físicas da sociedade civil – podemos adquirir do caso da CA; e, segundo, num debate (praticamente um puxão de orelha bem dado) sobre como a pesquisa na internet se tornou limitada e monopolizada metodologicamente. Há também, tanto no tom quanto de forma explícita no texto, uma crítica ferrenha às práticas de marketing que utilizam dados de usuários de mídias sociais para lucro corporativo em oposição à utilização desses mesmos dados para pesquisa em Ciências Sociais – um debate complicado, principalmente para mim, visto que estou em ambos os lados (então deixemos para outra oportunidade).

Aprendendo com o caso da Cambridge Analytica

Na primeira seção do texto os pesquisadores partem de duas falas proferidas por Zuckerberg em sua audiência, destacando dois problemas: a ideia de que 1) “os dados produzidos pelas mídias sociais são poderosos, mas neutros – extremamente úteis ou extremamente perigosos a depender de como serão utilizados” e que 2) “a solução contra essa má utilizações é trancar esses dados dentro das plataformas para que não caiam nas mãos erradas” (p. 2). Os autores chamam atenção sobretudo para como essas argumentações fazem parte da narrativa estratégica do Facebook para parecer “um aventureiro tropeçando na lanterna mágica de dados pessoais e sem querer libertar seu gênio” – contra a maléfica Cambridge Analytica (que seria o verdadeiro culpado).

Remontando os acontecimentos, eles listam os seguintes fatos (e considerações):

  • Num primeiro momento, a CA tentou comprar dados de um projeto antigo da Cambridge University – o teste myPersonality, um app do Facebook que coletou informações sobre 6 milhões de usuários a partir de um quiz de personalidade; além das respostas, o projeto também coletou informações sobre os perfis e suas curtidas, mas nada sobre as amizades dos usuários que fizeram o teste; a negociação não foi pra frente porque os acadêmicos se negaram à utilização comercial dos dados coletados;
  • Num segundo momento, a CA resolveu replicar esse projeto com a ajuda do Profº. Aleksandr Kogan, também pesquisador da Cambridge University, que lançara seu próprio projeto e cujos alunos foram posteriormente trabalhar no próprio Facebook; o app criado era mais improvisado e foi utilizado por menos de 300 mil usuários – os 80 milhões de perfis “roubados” comumente noticiados pela imprensa são o total desses 300 mil + a média de amigos de um usuário comum (267);
  • A v1.0 da Graph API permitia a coleta de dados não somente de usuários (que autorizaram a utilização de um app), mas também de sua lista de amigos; no entanto, as informações psicológicas – tanto ostentadas midiaticamente – só estavam disponíveis quanto aos quase 300.000 usuários que fizeram o teste, ou seja, 99,5% das entradas coletadas pela CA não continham informações referente à “abordagem psicológica” da empresa.
  • Os respondentes do teste de Kogan foram recrutados através de serviços pagos, plataformas reconhecidas por trazer força de trabalho através de fazendas de cliques; o próprio Kogan, em sua audiência, chamou os dados de “barulhento” e “sem valor” para anúncios políticos.

Ou seja, resumindo ainda nas palavras de Venturini e Rogers, “o ‘big data’ o qual a CA se gaba é questionável em qualidade e origem, falho por cobertura desigual e antiético em sua coleta” (p. 3). O caso da Cambridge Analytica é interessante por porque eles fizeram tudo numa brecha extremamente perigosa que o próprio Facebook deixou aberta por anos (que foi a v1.0 da Graph API) – esse artigo discute bem quanto a isso, basicamente argumentando como a prática da empresa não é nada do que agências do mundo inteiro não tenham feito nos últimos anos; e porque, mesmo assim, eles aparentemente fizeram tudo errado – como apontam (e batem com gosto) os pesquisadores, desfazendo seus argumentos (metodológicos).

Aleksandr Kogan em depoimento sobre seu trabalho com a Cambridge Analytica

Venturini e Rogers chamam atenção para os dois principais supostos trunfos da CA: a “segmentação de audiência através de análise sofisticada de personalidade” e a identificação de ideias conspiratórias para o direcionamento de fake news. Quanto ao primeiro, reforçam que eles só tinham os dados psicológicos de 300.000 usuários (e não 80 milhões) e que basicamente o Facebook não tem uma opção de segmentação para pessoas a partir de “estados da mente”, então perfis psicológicos não seriam tão úteis assim; e, quanto ao segundo, é muito mais provável que tenham obtido essas informações através de questionários e focus group – do que através de rastros online.

Então, se o valor dos dados da Cambridge Analytica eram tão irrelevantes e provavelmente não tiveram poder nenhum para anúncios de campanhas políticas, por que Zuckerberg não contra-argumentou quanto a isso em sua audiência? Segundo os autores, por dois motivos:

  1. Para que o Facebook fosse visto não como protagonista da história, mas como coadjuvante, “um provedor de infraestrutura desajeitado, mas humilde”;
  2. Porque o Facebook faz basicamente a mesma coisa que a Cambridge Analytica fez (o que volta para o artigo que citei anteriormente), “ambos sustentam seu mercado de anúncios ostentando o poder de seus dados e social analytics”.

Fechando essa seção com chave de ouro, em uma das citações mais poderosas do texto, os autores explicam: “As mídias sociais não liberaram descuidadamente levas de dados sensíveis pré-existentes que agora precisam ser controladas”. Muito pelo contrário, “elas [as empresas de mídias sociais] construíram proposital e implacavelmente a profecia auto-realizável do ‘marketing computacional’ e, para fazer isso, criaram um novo tipo de dado para sustentá-la” (p. 3-4). Ou seja, as plataformas criaram, principalmente de uns anos pra cá, o próprio ecossistema de venda de dados dos seus próprios usuários em troca de lucro (e esse modelo de negócio é o que as têm sustentado).

Pesquisa com APIs e trabalho de campo digital

A segunda parte do texto basicamente discorre sobre aquela máxima de que há males que vem para o bem. Depois de bater muito na Cambridge Analytica e no Facebook (e em agências de marketing em geral), Venturini e Rogers admitem que “a crescente preocupação pública gerada por isso [o caso da CA] e por outros escândalos recentes relacionados a campanhas eleitorais deve fazer com que [as APIs] fechem ainda mais” (p. 4) e isso é uma oportunidade para pesquisadores darem um passo para trás e repensarem o modo de fazer pesquisa online.

“Registros digitais vêm num nível muito mais fino de agregação do que demografia e questionários. Eles permitem não apenas calibrar categorias e opiniões, mas examinar interações palavra por palavra. Antes do advento da mediação digital, isso só era possível nas pequenas e situadas comunidades as quais pesquisadores podiam observar etnograficamente. Hoje em dia, uma investigação tão sensível quanto é possível para populações maiores, aumentando as possibilidades em tempo e espaço.”

(VENTURINI; ROGERS, 2019)

Eles argumentam que, principalmente nesta década (na qual houve um estrondo absurdo também da popularidade de sites de redes sociais), pesquisadores acabaram tendo o trabalho enviesado pelas infraestruturas de coleta de registros digitais. “Comparada a técnicas anteriores de coleta de registros digitais, as APIs das mídias sociais vieram como um presente de Deus, oferecendo imensa quantidade de dados acessíveis em alguns cliques prontos para serem analisados” (p. 4), explicam. Isso foi fruto, no entanto, de uma concentração (e praticamente um monopólio do Facebook) das discussões online que também fizeram parte do contexto de venda de anúncio publicitário dessas plataformas (onde acontecem as discussões).

“Ao construir as infraestruturas necessárias para apoiar e rastrear a crescente quantidade de interações online e ao tornar os registros resultantes disponíveis através das APIs, as plataformas reduziram significativamente os custos dos dados de mídias sociais”, explicam. “A facilidade da pesquisa com APIs [ou API-research, a qual descrevem como ‘uma abordagem às Ciências Sociais Computacionais e Sociologia Digital baseada na extração de registros de datasets disponibilizados por plataformas onlines através das suas interfaces de aplicação de programação (APIs)’] – veio com o preço de aceitar a padronização particular operada pelas plataformas de mídias sociais e o enviesamento que vem junto” (p. 5), completam.

Aqui os autores chamam atenção de um assunto sobre o qual eu penso já há algum tempo: a euforia (negligente) dos dados. Nós, tanto pesquisadores acadêmicos quanto profissionais do mercado, criamos uma bolha que eventualmente iria estourar. “Num frenesi consumista, nós estocamos dados como commodities produzidas em massa”, alertam. “A pesquisa com APIs é culpada (pelo menos em parte) por espalhar o hype dos dados de mídias sociais, reduzindo a diversidade de métodos digitais ao estudo de plataformas online, e por espalhar as ideias pré-concebidas de que o Facebook, o Google, o Twitter e seus semelhantes são os mestres do debate online, e não há alternativas a não ser viver sob as migalhas de suas APIs” (p. 5).

Como mencionei anteriormente, portanto, sobre males que vem para o bem, eles argumentam que “o fechamento das APIs das mídias sociais devem nos lembrar de que dinâmicas coletivas existiam muito antes das plataformas sociais (e ainda existem junto a elas” – e, portanto, “não são a única maneira de estudar fenômenos online” (p. 5). Dentre algumas alternativas possíveis, citam “crawling” e “scraping” tanto quanto participar ativamente dos websites para gerar registros válidos. E ainda que esses métodos de pesquisa tenham seus enviesamentos e limitações, além de serem difíceis e trabalhosos, Venturini e Rogers argumentam que esses “maus necessários” têm pelo menos três vantagens:

  1. A coleta de registros feito de maneira direta (e não pelas APIs) permite que os pesquisadores também analisem as dinâmicas da plataforma tal qual os usuários as vivenciam – a interação com os atores/participantes pode ainda ser um ponto positivo (como no caso de moderadores fornecendo o arquivo de discussão de um grupo), encorajando o diálogo entre ambas as partes;
  2. O fechamento das APIs de gigantes como Facebook, Twitter e Google força voltarmos o olhar a outras alternativas de fonte de dados que, a depender do assunto, podem conter informações muito mais valiosas;
  3. Não é o fim da coleta de dados de grandes plataformas, com soluções em parcerias entre pesquisa e indústria como no projeto Social Science One.

Novamente fechando com grande estilo, eles argumentam que “as restrições de APIs podem acabar sendo algo bom se encorajarem pesquisadores a voltarem ao trabalho de campo”. Explicam que “reduzir nossa dependência em dados padrões das APIs não significa desistir do projeto de colher dados ricos de grandes populações, mas implica em investir nos esforços necessários para cultivar tais dados”. Para finalizar num tom mais ameno: “a consulta de APIs por si só pode ser uma forma de trabalho de campo quando não é uma acumulação de atacado de dados só pela larga quantidade, mas um trabalho cuidadoso de extração desenvolvido em colaboração com as plataformas e seus usuários”.

Algumas implicações políticas

Na última seção, mais curta (e concisa) que as demais, eles discorrem brevemente sobre a ideia de que as mídias sociais seriam o principal – único e/ou melhor – meio para estudar fenômenos sociais. Nesse sentido, eles discutem sobre as plataformas não essencialmente sob uma perspectiva metodológica, mas sob um olhar mais apurado – crítico e teórico, eu diria – sobre as dinâmicas sociais as quais sustentam e pelas quais são sustentadas.

Eles argumentam que o caso da Cambridge Analytica evidencia “o quão facilmente o debate público pode ser poluído por marketing computacional”. Citando Henry Jenkins, afirmam que a influência dos dados de mídias sociais e seus sistemas de mensuração são maiores quando servem à proposta fruto da sua essência, que é “promover o tipo de atenção superficial mais adequada ao sistema contemporâneo de propaganda e entretenimento”. Esses sistemas foram desenvolvidos “para promover uma audiência de consumidores cujas características são opostas àquelas de um público democrático saudável” (p. 7).

“Por elas [as plataformas de mídias sociais] focarem em ações sem esforço como um clique, uma curtida e um compartilhamento, os sistemas de mensuração promovem um tipo de engajamento que é fácil e de pouca duração; por mensurar essas ações de maneira individualizada (em vez de comunitária), eles alimentam popularidade individual em vez de ação coletiva. Por isso resistir ser ‘capturado’ pela infraestrutura das mídias sociais é crucial não apenas metodologicamente, mas também politicamente”.

(VENTURINI; ROGERS, 2019)

Seja como indivíduo (usuário) ou pesquisador, é preciso ter cautela perante os sites de redes sociais. Como o último, levar sempre em consideração seu contexto de produção e seus enviesamentos: “pesquisa através de plataformas de mídias devem sempre também ser pesquisa sobre plataformas de mídia” (p. 8). Para Venturini e Rogers, precisamos abdicar do “conforto” das APIs e voltar a campo (digitalmente) se quisermos entender e apoiar o trabalho de atores sociais e políticos que anseiam por um debate público saudável.

Referência bibliográfica

Venturini, Tommaso, and Richard Rogers. 2019. “‘API-Based Research’ or How Can Digital Sociology and Digital Journalism Studies Learn from the Cambridge Analytica Affair.” Digital Journalism, Forthcoming.

Pesquisa em mídias sociais na era pós-API

No rascunho “Computational research in the post-API age”, o pesquisador Dr. Deen Freelon, da University of North Carolina, aponta dois marcos importantíssimos para quem atua com pesquisa/monitoramento de mídias sociais – ambos específicos do Facebook: em abril de 2015, quando a plataforma fechou a API de pesquisa pública (que permitia acesso “buscável” a todos os posts públicos num período de duas semanas); e outro, mais recente, quando a empresa de Mark Zuckerberg fechou drasticamente o cerco de acesso à API de páginas.

De 2015 para cá, muita coisa mudou no mercado de inteligência de mídias sociais – dentre as principais mudanças, eu citaria a crescente relevância do trabalho de mídia paga em relação direta com o trabalho de mensuração (métricas), e com certo menosprezo do mercado pelo trabalho de monitoramento. Isso acontece por vários motivos, a meu ver, que se atravessam e se retroalimentam: 1) o ritmo de agências e clientes; 2) o desprezo do mercado por pesquisa (e conhecimento – científico – de modo geral); 3) a falta de inovação de atores relevantes (principalmente ferramentas líderes de mercado); 4) e o – cada vez mais – desafiador cenário de como adquirir dados de mídias sociais (aqui, focaremos neste); dentre outros.

Quando o Facebook resolveu matar a coleta de posts públicos dos usuários (em seus feeds/murais), uma conversa foi iniciada e estabeleceu-se um debate sobre “o futuro” do monitoramento de mídias sociais (isso em 2015). Três anos depois, o mercado não reagiu tão ativamente à nova política da plataforma – muito mais restritiva e complexa. Ainda que haja um debate intenso sobre proteção de dados pós escândalo da Cambridge Analytica, somado à criação do GDPR e Lei de Proteção de Dados (no Brasil), pouco se discutiu sob a perspectiva do mercado de monitoramento e pesquisa em mídias sociais. Por isso, para trazer esse assunto à tona, retomo – e recorro – ao ensaio pragmático de Freelon.

“O fechamento da API de Páginas eliminou todos acessos ao conteúdo do Facebook conforme acordado em seus Termos de Serviço. Permita-me sublinhar a magnitude dessa mudança: não há atualmente uma maneira para extrair de forma independente o conteúdo do Facebook sem violar seus Termos de Serviço. Num estalar de dedos metafórico, o Facebook invalidou instantaneamente todos os métodos que dependiam da API de Páginas. […] Nós nos encontramos numa situação na qual o investimento pesado em ensinamento e aprendizado de métodos específicos da plataforma podem se tornar obsoletos do dia para a noite: é isso que quero dizer com ‘a era pós-API’.”

Embora soe apocalíptico (assim como em 2015 soou), não é o fim do monitoramento/pesquisa em mídias sociais. Para contornar esse cenário nebuloso, Freelon aponta duas prioridades para quem trabalha nesse contexto: será necessário – o quanto antes – aprender a fazer “scraping” de páginas da web; ao mesmo tempo em que compreendamos as consequências potenciais de violar os Termos de Serviço das plataformas ao fazer isso. Ou seja, de certo modo (e como seu título indica), está na hora de superarmos as APIs para que consigamos trabalharmos sem as restrições arbitrárias das plataformas.

Sobre o aprendizado de técnicas de scraping (que envolvem, majoritariamente, linguagens de programação como Python e R), o pesquisador cita que a flexibilidade é a sua principal vantagem. Por outro lado, essa flexibilidade – que está ligada justamente a um campo maior de possibilidade/escopo maior de trabalho – significa também ter que lidar com diferentes demandas de programação. Ou seja, significa ter que programar séries diferentes (possivelmente completamente diferentes) para cada scraping desejado, além de ter que se adaptar ao cenário caótico de restrições que, quando estabilizados em API, tornava-se muito mais amigável.

O segundo ponto – menos técnico e mais crítico – é referente às dimensões legais e éticas das práticas de web scraping. “A extração de conteúdo automatizada em larga escala consome um valor absurdo de banda larga dos sites fontes, motivo pelo qual várias das plataformas mais populares da web – inclusive Facebook e Google – proíbem essa prática de modo explícito em seus Termos de Serviço”, explica. Isso pode acarretar desde um simples bloqueio de IP do seu computador em acesso ao site até medidas muito mais graves, como contrapartidas legais que podem destruir a carreira (e até a vida) de um pesquisador.

Nesse cenário inóspito e tendo essas duas medidas em mente, Freelon propõe as seguintes recomendações “para equilibrar a segurança do(a) pesquisador(a), a privacidade dos usuários e prerrogativas das empresas”:

  1. Utilize métodos autorizados sempre que possível: ou seja, antes de se render a técnicas de scraping por vias repreensíveis, procure ao máximo modos de o fazer através de medidas oficialmente sancionadas;
  2. Não confunda o acordo dos Termos de Serviço com proteção de privacidade: “ao utilizar métodos de acordo com os Termos de Serviço, você está respeito as prerrogativas de negócio das empresas que criaram a plataforma que você está estudando, mas pode ou não estar respeitando a dignidade e privacidade dos usuários da plataforma”.
  3. Compreenda os riscos de violação dos Termos de Serviço: conforme as APIs vão se fechando e técnicas de scraping ficando mais comuns, é possível que as empresas utilizem de seu capital para ir atrás de quem não segue suas regras.

É evidente que a visão e as colocações do pesquisador partem de uma perspectiva acadêmica, pois, como bem lembra Marcelo Alves nesse excelente texto, “[o fechamento da API] gera uma nova assimetria de poder entre quem pode ou não realizar pesquisas e se beneficiar dos insights de dados digitais, na medida em que sempre será possível comprar os dados de algum revendedor autorizado pelo Facebook”. É por isso que grandes ferramentas de monitoramento de mídias sociais não serão (tão) afetadas nesse cenário, o que consequentemente também não gera um impacto tão ruim para grandes marcas/empresas.

Quem sofre, como de costume, são as empreitadas de pequeno e médio porte: como a Netvizz, por exemplo, que está possivelmente com seus dias contados. É um cenário extremamente difícil para pesquisadores independentes/acadêmicos. Se engana, entretanto, quem acha que isso só afeta esses atores: é justamente devido a essa desigualdade de acesso que o monitoramento de mídias sociais como conhecemos tem perdido tanta força. Talvez fique mais evidente esta questão quando compararmos, por exemplo (mais uma vez), ao trabalho de mídia paga, que se popularizou justamente pelo esforço do Facebook em torná-lo o mais intuitivo possível.

Dificultar a pesquisa/o monitoramento de dados sociais digitais, portanto, é ruim para pesquisadores independentes, acadêmicos, analistas de monitoramento, BI… – é ruim para todo mundo. É, ainda assim, importante para lembrar o que e quem está por trás das mídias sociais. O Facebook se ancora na justificativa de proteção de dados dos usuários para dificultar o acesso de maneira completamente irresponsável e arbitrária. A verdade é que, no fim das contas, o capitalismo sempre vence e quem pagar mais vai conseguir o que quiser, quando quiser e como quiser. Cabe a nós pensar como contornar essa situação.

Por aqui, depois de muito me opor ao aprendizado de programação, já comecei a engatinhar em Python. Tenho utilizado um script para fazer raspagem de publicações do Instagram e muito recentemente consegui aprender como rodar outro para coletar tweets até retroativamente. No meu caso, as implicações são éticas e legais, por isso tenho mergulhado nesse debate – travado principalmente na academia – sobre os limites da exposição de dados. Minha preocupação, entretanto, é mais para com os usuários do que para com as empresas. E você, vai deitar pro Facebook?

 

Coleta de dados relacionais nas mídias sociais, da Escola de Verão de Estudos de Mídia

Nos dias 13 e 14 de fevereiro tive a oportunidade de participar do curso “Coleta de dados relacionais nas mídias sociais” que aconteceu na Universidade Federal Fluminense a partir do projeto Escola de Verão de Estudos de Mídia.  Atendendo majoritariamente mestrandos e doutorandos (e eu, intruso), o conteúdo foi ministrado por Marcelo Alves, doutorando no PPGCOM/UFF e membro do grupo de pesquisa Lamide – Laboratório de Mídia e Democracia, além de autor do capítulo Abordagens de coleta de dados nas mídias sociais” do livro Monitoramento e Pesquisa em Mídias Sociais: metodologias, aplicações e inovações, sobre o qual falarei melhor em outro post específico sobre a coletânea.

Além da publicação, vale também – antes de entrar no conteúdo apresentado no curso – recomendar alguns outros materiais do pesquisador. No material “100 Fontes sobre Pesquisa e Monitoramento de Mídias Sociais” do IBPAD há algumas indicações de artigos, capítulos, posts e de sua tese, mas reforço aqui algumas indicações que ele mesmo recomendou especificamente para o curso: “Bridging semantic and social network analyses: the case of the hashtag #precisamosfalarsobreaborto (we need to talk about abortion) on Twitter”, “Agentes de campanha não-oficial: A Rede Antipetista na eleição de 2014” e “Internet e campanha eleitoral no Brasil: a Blogosfera Progressista Ampliada e a Rede Antipetista” – além do trabalho na Vértice, onde produziu algumas análises interessantes no período das campanhas eleitorais para prefeito do Rio de Janeiro em 2016.

Entrando finalmente no curso, acho importante ratificar que a proposta não era aprofundar em análise, mas entender alguns conceitos e premissas importantes para a coleta de dados – principalmente de olho nas famosas APIs. Esta deve ser uma das buzzwords mais populares do mercado principalmente de monitoramento, mas, ainda assim, pouco se debate de fato sobre o que ela faz, o que ela entrega, como entrega, quais as possibilidades de entrega, etc. Uma dos objetivos do curso, portanto, foi apresentar aos alunos uma introdução da leitura da documentação da API. Antes disso, no entanto, houve uma preocupação de passar alguns dos principais e gerais conceitos sobre um novo cenário comunicacional, abordando algumas temáticas sobre novas mídias, comunicação política de análise de redes sociais.

A começar por uma “desmistificação” de algumas concepções comuns no imaginário social sobre a ideia de cauda longa: as lógicas de rede não estão tomando o lugar da lógica de massa; as plataformas de mídias sociais seguem outras regras de jogo; e a mídia de massa e o conteúdo jornalístico continuam sendo uma das principais fontes de informação – as duas lógicas não estão estáticas, mas em constante evolução. Como explicam Klinger e Svensson (2014), “Plataformas de mídias sociais operam de uma forma diferente à mídia de massa tradicional, sobrepondo-a. Isso gera maneiras diferentes de produzir conteúdo, distribuir informação e usar a mídia”. Retomando o famoso conceito da cauda longa, esse artigo também me lembrou essa matéria do The Economist: “Mass entertainment in the digital age is still about blockbusters, not endless choice”.

Lógicas da comunicação política em massa e em rede (Klinger e Svensson, 2014)

Ainda no contexto de comunicação política, Chadwick (2013) fala sobre sistemas midiáticos híbridos: “baseado em conflito e cooperação entre lógicas novas e antigas; mas também possui considerável grau de interdependência entre estas lógicas”, ou seja, há uma convergência midiática em que todos os atores estão entrelaçados. Em outras palavras, o que esses autores – e a matéria do The Economist – querem dizer é que a internet (e principalmente as mídias sociais) não vieram para democratizar completamente a mídia como conhecemos. As plataformas digitais de conteúdo gerado pelos próprios usuários se sobrepõem à uma lógica de massa não indissociável, mas interdependente e ainda bastante pautada no investimento financeiro – quem tem mais dinheiro consegue ter mais voz com mais facilidade.

Seguindo com o argumento de Chadwick (2007), nesse novo cenário de repertórios digitais em redes e hibridismo organizacional, surgem duas tendências paralelas: as organizações políticas tradicionais adotam e modificam seletivamente características de movimentos sociais; e surgem novas formas organizacionais intrínsecas à internet. No ciclo de informação política (Chadwick, 2010), há um maior número e maior diversidade de atores; estruturas temporais mais rápidas e complexas; participantes que tangenciam as elites políticas midiáticas; e diversificação das fontes de informação. Para mais informações sobre o assunto, recomendo conferir a apresentação disponibilizada no Slideshare — que já serve de gancho para darmos continuidade ao post:

Para dar conta, portanto, desse ambiente midiático híbrido, plural e pulsante, “surgem” as técnicas de análise de redes sociais. Antes, entretanto, vale reforçar alguns pontos importantes sobre a ideia de esfera pública em rede (Benkler et al., 2013): “arena alternativa para o discurso e debate público, uma arena que é menos dominada pelas grandes organizações midiáticas, menos sujeita ao controle do governo e mais aberta a participação ampla”. Acrescentando à ideia de pluralidade, essa esfera pública se apresenta “como um ecossistema complexo de canais de comunicação que coletivamente oferecem um ambiente que conduz a expressão política e a criação de diversas formas organizacionais” – o que me lembrou esse artigo do Axel Bruns (que eu ainda não li, mas fica a recomendação bibliográfica).

Com tudo isso em mente, chegamos à solução encontrada para os problemas supracitados: análise de redes sociais. Coloquei entre aspas ali em cima o “surgimento” dessa técnica porque ela não é contemporânea das mídias sociais – no capítulo “Análise de redes para mídias sociais” do livro já citado do IBPAD, Tarcízio Silva e Max Stabile mostram como essa é uma metodologia comum à Sociologia já há algumas décadas. Recomendo novamente a leitura do capítulo para uma compreensão mais detalhada sobre o assunto (embora ainda assim seja bem introdutório, visto o extenso repertório que pesquisadores brasileiros como Fábio Malini e Raquel Recuero têm sobre o tema), mas o importante aqui é entender duas coisas básicas.

Primeiro que, na internet, estamos sempre produzindo rastros sociais digitais. Esses rastros seguem lógicas das próprias plataformas – sejam elas websites, fóruns, lojas de e-commerce, etc. -, mas, quando falamos de mídias sociais (principalmente Facebook e Twitter), muitas dessas dinâmicas e fenômenos sociais podem ser assimilados a uma compreensão do conhecimento já comum às Ciências Sociais. Ou seja – e aqui já entramos no segundo ponto -, é nesse contexto que compreendemos as redes sociais nas mídias sociais. O foco da técnica de ARS está justamente em entender uma rede social (online ou não) em sua estrutura e dinamismo social, pensando como diferentes atores se conectam, influenciam e relacionam.

Parte-se da análise de como os nós se conectam e relacionam para realizar a análise que, posteriormente, pode agregar dados de atributos e outros. E as conexões podem ser de diversos tipos, intensidades e direções. Na análise de redes sociais, os nós são elementos analisados que podem ser individualizados, e representam algum ator social, grupo social ou produto realizado por estes. (SILVA; STABILE, 2016)

A partir disso nós conseguimos compreender do que se trata o “relacionais” do nome do curso: são dados que possuem duas informações distintas – atributos dos atores e a relação entre eles, ou seja, além de observar o conteúdo, preocupa-se também em analisar como esse conteúdo (a interação) se estrutura socialmente. É aqui também que podemos introduzir alguns termos importantes na ARS: ator/nós/vértices (componente individual), laços/arestas (ligações entre atores), clusters (subconjuntos identificados pela densidade), rede (totalidade de atores e ligações da amostra). No curso, não entramos em detalhes sobre essas definições e conceitos (embora sejam bem simples), uma vez que a proposta não era na parte de análise, mas de coleta.

Mas por que essa metodologia se tornou uma das principais para análise de dados nas mídias sociais nos últimos anos? Segundo Silva e Stabile (2016), “nos ambientes online, a abundância de laços fracos aumenta a probabilidade de os indivíduos acessarem conteúdos, nichos e experiências a que não teriam acesso através de suas redes mais próximas”. E o que seriam esses laços fracos? No livro, eles retomam um estudo sociológico de 1983 para falar sobre o assunto. No curso, vimos os conceitos de rede associativa/de afiliação (ligações mais estáveis e duradouras, como seguir páginas/solicitações de amizade) e redes emergentes (ligações mais circunstanciais, como menções/RT), de Recuero. Para mais detalhes, recomendo este post que fiz sobre outro artigo da Recuero que também fala sobre o assunto.

Retomando o conteúdo do curso, falemos sobre as famosas APIs. Como já mencionei anteriormente, é uma sigla bastante famosa entre profissionais de inteligência (monitoramento, métricas, BI, etc.), mas pouco se discute no mercado sobre suas atribuições técnicas. Na minha (humilde) opinião, isso acontece porque há uma palpitação nervosa no mercado quando falamos de discutir metodologia. Enquanto isso, na academia, onde a metodologia precisa ser esmiuçada e destrinchada com profundidade e responsabilidade técnico-científica, muito se avança no debate sobre APIs, por exemplo. E esse debate é de extrema importância, uma vez que (retirado do slide):

  • As políticas de cessão de dados de cada plataforma são documentadas nas APIs;
  • APIs são tanto documentos técnicos quanto reflexos das diretrizes empresariais de fornecimento de dados;
  • APIs são modificadas frequentemente, de acordo com as necessidades e interesses mercadológicos das organizações;
  • As documentações mostram quais requisições são possíveis (queries), em qual volume (rate limit) e com quais parâmetros.

O único momento em que o mercado discutiu sobre API foi quando as agências e os profissionais de monitoramento tiveram que informar aos clientes que já não conseguiriam mais monitorar publicações do Facebook. Novamente, na minha (humilde) opinião, penso que essa falta de debate impede um maior avanço para a criação de novas técnicas de análise de dados que enriqueçam ainda mais a inteligência a ser extraída das mídias sociais. No curso, exploramos a própria interface que o Facebook disponibiliza para fazer a conexão com sua API e retornar os dados – basta ter uma conta na plataforma para conseguir um token de acesso. Para os leigos, talvez aqui fique mais claro: a API funciona como um plug que conecta os dados da plataforma com o “mundo externo”, fazendo essa conexão de banco de dados.

Como membro da academia, Marcelo tem uma preocupação especial com o debate sobre métodos e metodologia de pesquisa. Não vou entrar muito nesse mérito porque é um assunto razoavelmente denso, mas recomendo mais uma vez a leitura de sua produção científica e até mesmo as informações da apresentação disponibilizada, nos slides sobre técnicas de amostragem em métodos digitais (Rieder, 2012) e adaptando os métodos para coleta relacional no Facebook (CF. Bruns e Burgess, 2014) – além dos registros em seu blog, onde aborda com minúcia essas questões. Há também no capítulo do livro do IBPAD uma proposta metodológica que tenta dar conta do escopo de pesquisa no Facebook.

O mais importante desse debate agora é a conclusão: para dar conta das dinâmicas relacionais que acontecem na atmosfera política midiática, decidiu-se pela utilização do método de amostragem por grafos e da bola de neve. Essa metodologia pode ser superficialmente compreendida nesse estudo do IBPAD, que utiliza da mesma técnica de pesquisa. Em suma, trata-se de elaborar um mapeamento de fan-pages que liste nós-sementes temáticos e/ou homogêneos e, a partir deles, siga como uma bola de neve coletando outras páginas (mais detalhes sobre essa etapa pode ser vista no slide 39).

Para levantar essa lista, há duas possibilidades: pode ser feita através de um simples pedido de “busca” nas plataformas (neste caso, no Facebook) ou a partir de uma lista já pré-estabelecida sobre uma mesma temática (ver slide 40 e 41). Essa lista, entretanto, só nos oferece a primeira instância dos dados. Como o foco aqui são dados relacionais, é preciso fazer um pedido na API também pelos atributos de conexão entre as páginas. Ou seja, a partir da lista inicial, seguimos como uma bola de neve coletando páginas relacionadas (na prática, são as páginas curtidas pela primeira) para depois solicitar todos os seus dados. No slide abaixo é possível ver como seria essa query.

A ferramenta que utilizamos para fazer essa coleta a partir da API no Facebook (e que também atua no Twitter) foi a Facepager. Com código aberto, foi programada em Python 2.7 e por isso possui alto grau de liberdade para os usuários operarem as requisições (além de introduzir conceitos importantes de data mining como query, data munging, data storage, log de processos, etc.). Por isso também é uma ferramenta bem “cascuda”, com uma interface não tão amigável que pode assustar quem não possui uma simpatia com processamentos de programação – para essas pessoas, a Netvizz pode ser uma boa opção. Para ARS, por exemplo, a Netvizz já dá o GDF pronto, enquanto na Facepager você que organiza as ligações entre as páginas (ver slide 46).

Para apresentar a ferramenta com cuidado, mostrando todas as suas funções e possibilidades, seria preciso outro post somente sobre ela. Para uma introdução básica, entretanto, compartilho abaixo um vídeo-tutorial que encontrei no YouTube que mostra algumas das suas funcionalidades básicas. O importante, entretanto, é compreender que – também a partir dessa ferramenta – há uma enorme possibilidades de diferentes níveis e tipos de dados a serem coletados através da API do Facebook. Para isso, faz-se necessário que pesquisadores – da academia ou do mercado – debrucem-se sobre a documentação disponibilizada pela plataforma, para tentar compreendê-la em sua plenitude.

Por fim, gostaria de agradecer formalmente ao Marcelo por poder participar do curso (visto que eu era o único graduando – nem graduado! – ali). Tenho bastante interesse em ampliar meus conhecimentos acadêmicos sobre métodos de pesquisa digitais e fiz este post menos como uma resenha ou revisão do conteúdo, mas mais como forma de expandir a divulgação de uma bibliografia que pode chegar a mais e mais pessoas que podem tê-la como útil. No mais (e para finalizar), reforço que tanto na teoria quanto nas técnicas a academia têm muito a oferecer ao mercado.

Referências bibliográficas

Em: ALVES, Marcelo. #VEM Coleta de dados relacionais. Slideshare, 2017.

SILVA, Tarcízio; STABILE, Max (Orgs.). Monitoramento e pesquisa em mídias sociais: metodologias, aplicações e inovações. São Paulo: Uva Limão, 2016.