Pesquisa em mídias sociais na era pós-API

No rascunho “Computational research in the post-API age”, o pesquisador Dr. Deen Freelon, da University of North Carolina, aponta dois marcos importantíssimos para quem atua com pesquisa/monitoramento de mídias sociais – ambos específicos do Facebook: em abril de 2015, quando a plataforma fechou a API de pesquisa pública (que permitia acesso “buscável” a todos os posts públicos num período de duas semanas); e outro, mais recente, quando a empresa de Mark Zuckerberg fechou drasticamente o cerco de acesso à API de páginas.

De 2015 para cá, muita coisa mudou no mercado de inteligência de mídias sociais – dentre as principais mudanças, eu citaria a crescente relevância do trabalho de mídia paga em relação direta com o trabalho de mensuração (métricas), e com certo menosprezo do mercado pelo trabalho de monitoramento. Isso acontece por vários motivos, a meu ver, que se atravessam e se retroalimentam: 1) o ritmo de agências e clientes; 2) o desprezo do mercado por pesquisa (e conhecimento – científico – de modo geral); 3) a falta de inovação de atores relevantes (principalmente ferramentas líderes de mercado); 4) e o – cada vez mais – desafiador cenário de como adquirir dados de mídias sociais (aqui, focaremos neste); dentre outros.

Quando o Facebook resolveu matar a coleta de posts públicos dos usuários (em seus feeds/murais), uma conversa foi iniciada e estabeleceu-se um debate sobre “o futuro” do monitoramento de mídias sociais (isso em 2015). Três anos depois, o mercado não reagiu tão ativamente à nova política da plataforma – muito mais restritiva e complexa. Ainda que haja um debate intenso sobre proteção de dados pós escândalo da Cambridge Analytica, somado à criação do GDPR e Lei de Proteção de Dados (no Brasil), pouco se discutiu sob a perspectiva do mercado de monitoramento e pesquisa em mídias sociais. Por isso, para trazer esse assunto à tona, retomo – e recorro – ao ensaio pragmático de Freelon.

“O fechamento da API de Páginas eliminou todos acessos ao conteúdo do Facebook conforme acordado em seus Termos de Serviço. Permita-me sublinhar a magnitude dessa mudança: não há atualmente uma maneira para extrair de forma independente o conteúdo do Facebook sem violar seus Termos de Serviço. Num estalar de dedos metafórico, o Facebook invalidou instantaneamente todos os métodos que dependiam da API de Páginas. […] Nós nos encontramos numa situação na qual o investimento pesado em ensinamento e aprendizado de métodos específicos da plataforma podem se tornar obsoletos do dia para a noite: é isso que quero dizer com ‘a era pós-API’.”

Embora soe apocalíptico (assim como em 2015 soou), não é o fim do monitoramento/pesquisa em mídias sociais. Para contornar esse cenário nebuloso, Freelon aponta duas prioridades para quem trabalha nesse contexto: será necessário – o quanto antes – aprender a fazer “scraping” de páginas da web; ao mesmo tempo em que compreendamos as consequências potenciais de violar os Termos de Serviço das plataformas ao fazer isso. Ou seja, de certo modo (e como seu título indica), está na hora de superarmos as APIs para que consigamos trabalharmos sem as restrições arbitrárias das plataformas.

Sobre o aprendizado de técnicas de scraping (que envolvem, majoritariamente, linguagens de programação como Python e R), o pesquisador cita que a flexibilidade é a sua principal vantagem. Por outro lado, essa flexibilidade – que está ligada justamente a um campo maior de possibilidade/escopo maior de trabalho – significa também ter que lidar com diferentes demandas de programação. Ou seja, significa ter que programar séries diferentes (possivelmente completamente diferentes) para cada scraping desejado, além de ter que se adaptar ao cenário caótico de restrições que, quando estabilizados em API, tornava-se muito mais amigável.

O segundo ponto – menos técnico e mais crítico – é referente às dimensões legais e éticas das práticas de web scraping. “A extração de conteúdo automatizada em larga escala consome um valor absurdo de banda larga dos sites fontes, motivo pelo qual várias das plataformas mais populares da web – inclusive Facebook e Google – proíbem essa prática de modo explícito em seus Termos de Serviço”, explica. Isso pode acarretar desde um simples bloqueio de IP do seu computador em acesso ao site até medidas muito mais graves, como contrapartidas legais que podem destruir a carreira (e até a vida) de um pesquisador.

Nesse cenário inóspito e tendo essas duas medidas em mente, Freelon propõe as seguintes recomendações “para equilibrar a segurança do(a) pesquisador(a), a privacidade dos usuários e prerrogativas das empresas”:

Utilize métodos autorizados sempre que possível: ou seja, antes de se render a técnicas de scraping por vias repreensíveis, procure ao máximo modos de o fazer através de medidas oficialmente sancionadas;
Não confunda o acordo dos Termos de Serviço com proteção de privacidade: “ao utilizar métodos de acordo com os Termos de Serviço, você está respeito as prerrogativas de negócio das empresas que criaram a plataforma que você está estudando, mas pode ou não estar respeitando a dignidade e privacidade dos usuários da plataforma”.
Compreenda os riscos de violação dos Termos de Serviço: conforme as APIs vão se fechando e técnicas de scraping ficando mais comuns, é possível que as empresas utilizem de seu capital para ir atrás de quem não segue suas regras.

É evidente que a visão e as colocações do pesquisador partem de uma perspectiva acadêmica, pois, como bem lembra Marcelo Alves nesse excelente texto, “[o fechamento da API] gera uma nova assimetria de poder entre quem pode ou não realizar pesquisas e se beneficiar dos insights de dados digitais, na medida em que sempre será possível comprar os dados de algum revendedor autorizado pelo Facebook”. É por isso que grandes ferramentas de monitoramento de mídias sociais não serão (tão) afetadas nesse cenário, o que consequentemente também não gera um impacto tão ruim para grandes marcas/empresas.

Quem sofre, como de costume, são as empreitadas de pequeno e médio porte: como a Netvizz, por exemplo, que está possivelmente com seus dias contados. É um cenário extremamente difícil para pesquisadores independentes/acadêmicos. Se engana, entretanto, quem acha que isso só afeta esses atores: é justamente devido a essa desigualdade de acesso que o monitoramento de mídias sociais como conhecemos tem perdido tanta força. Talvez fique mais evidente esta questão quando compararmos, por exemplo (mais uma vez), ao trabalho de mídia paga, que se popularizou justamente pelo esforço do Facebook em torná-lo o mais intuitivo possível.

Dificultar a pesquisa/o monitoramento de dados sociais digitais, portanto, é ruim para pesquisadores independentes, acadêmicos, analistas de monitoramento, BI… – é ruim para todo mundo. É, ainda assim, importante para lembrar o que e quem está por trás das mídias sociais. O Facebook se ancora na justificativa de proteção de dados dos usuários para dificultar o acesso de maneira completamente irresponsável e arbitrária. A verdade é que, no fim das contas, o capitalismo sempre vence e quem pagar mais vai conseguir o que quiser, quando quiser e como quiser. Cabe a nós pensar como contornar essa situação.

Por aqui, depois de muito me opor ao aprendizado de programação, já comecei a engatinhar em Python. Tenho utilizado um script para fazer raspagem de publicações do Instagram e muito recentemente consegui aprender como rodar outro para coletar tweets até retroativamente. No meu caso, as implicações são éticas e legais, por isso tenho mergulhado nesse debate – travado principalmente na academia – sobre os limites da exposição de dados. Minha preocupação, entretanto, é mais para com os usuários do que para com as empresas. E você, vai deitar pro Facebook?

2 comentários

A minha saga com Python (ou como aprendi o básico do básico) – insightee 2 de outubro de 2018

[…] modos de aplicação e pressupostos práticos. Como escrevi recentemente no último post, Pesquisa em mídias sociais na era pós-API, estamos passando por um momento crítico – uma virada metodológica – que exige […]

Um breve rascunho sobre a história da inteligência em mídias sociais – insightee 21 de maio de 2019

[…] especialização em técnicas mais quantitativas, além de o aprendizado de programação para superar os obstáculos das APIs. Isso mostra como (pelo menos alguns) profissionais da área de mídias sociais já não a […]

Deixe um comentário Cancelar resposta

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.