Opinião

Pesquisa com APIs pós-Cambridge Analytica

Em setembro do ano passado, trouxe aqui para o blog o texto “Computational research in the post-API age”, do pesquisador Dr. Deen Freelon,  no qual ele faz algumas considerações sobre o futuro da pesquisa computacional no que ele chamou de “era pós-APIs”. Dando sequência ao debate levantado naquele momento, trago desta vez outro texto de pesquisadores também renomados, Tommaso Venturini e Richard Rogers, no qual discutem sobre o futuro da pesquisa em mídias sociais após o escândalo da Cambridge Analytica – e suas devidas consequências.

Antes de entrar no texto, uma rápida contextualização (para quem não trabalha na área): 2018 foi o ano que o Facebook mais fechou o cerco quanto ao acesso irrestrito aos dados dos usuários; isso aconteceu principalmente devido aos problemas ocorridos nas eleições norte-americanas que elegeram Donald Trump e culminou numa audiência pública de Mark Zuckerberg diante do congresso de senadores. No rascunho “‘API-based research’ or how can digital sociology and journalism studies learn from the Cambridge Analytica affair”, que estará no livro Digital Journalism (a ser lançado), Venturini e Rogers partem do escândalo da CA para discutir o futuro da pesquisa com APIs e a importância de desenvolver uma prática de trabalho de campo digital mais sólida e diversa.

“Dentre outros motivos, as eleições presidenciais de 2016 serão lembradas pela revelação de que seu resultado pode ter sido afetada pela Cambridge Analytica, uma vergonhosa agência de marketing que ilegitimamente coletou dados de milhões de usuários do Facebook e os utilizou para a campanha de Donald Trump. O escândalo estimulou um vasto debate sobre a frouxidão da proteção de privacidade nas mídias sociais e forçou o Facebook a prometer uma redução drástica das informações disponibilizadas pela sua API.”

(VENTURINI; ROGERS, 2019)

O artigo se desenvolve sob dois pilares: primeiro, quanto aos “aprendizados” que todos nós – pesquisadores, mas também usuários e pessoas físicas da sociedade civil – podemos adquirir do caso da CA; e, segundo, num debate (praticamente um puxão de orelha bem dado) sobre como a pesquisa na internet se tornou limitada e monopolizada metodologicamente. Há também, tanto no tom quanto de forma explícita no texto, uma crítica ferrenha às práticas de marketing que utilizam dados de usuários de mídias sociais para lucro corporativo em oposição à utilização desses mesmos dados para pesquisa em Ciências Sociais – um debate complicado, principalmente para mim, visto que estou em ambos os lados (então deixemos para outra oportunidade).

Aprendendo com o caso da Cambridge Analytica

Na primeira seção do texto os pesquisadores partem de duas falas proferidas por Zuckerberg em sua audiência, destacando dois problemas: a ideia de que 1) “os dados produzidos pelas mídias sociais são poderosos, mas neutros – extremamente úteis ou extremamente perigosos a depender de como serão utilizados” e que 2) “a solução contra essa má utilizações é trancar esses dados dentro das plataformas para que não caiam nas mãos erradas” (p. 2). Os autores chamam atenção sobretudo para como essas argumentações fazem parte da narrativa estratégica do Facebook para parecer “um aventureiro tropeçando na lanterna mágica de dados pessoais e sem querer libertar seu gênio” – contra a maléfica Cambridge Analytica (que seria o verdadeiro culpado).

Remontando os acontecimentos, eles listam os seguintes fatos (e considerações):

  • Num primeiro momento, a CA tentou comprar dados de um projeto antigo da Cambridge University – o teste myPersonality, um app do Facebook que coletou informações sobre 6 milhões de usuários a partir de um quiz de personalidade; além das respostas, o projeto também coletou informações sobre os perfis e suas curtidas, mas nada sobre as amizades dos usuários que fizeram o teste; a negociação não foi pra frente porque os acadêmicos se negaram à utilização comercial dos dados coletados;
  • Num segundo momento, a CA resolveu replicar esse projeto com a ajuda do Profº. Aleksandr Kogan, também pesquisador da Cambridge University, que lançara seu próprio projeto e cujos alunos foram posteriormente trabalhar no próprio Facebook; o app criado era mais improvisado e foi utilizado por menos de 300 mil usuários – os 80 milhões de perfis “roubados” comumente noticiados pela imprensa são o total desses 300 mil + a média de amigos de um usuário comum (267);
  • A v1.0 da Graph API permitia a coleta de dados não somente de usuários (que autorizaram a utilização de um app), mas também de sua lista de amigos; no entanto, as informações psicológicas – tanto ostentadas midiaticamente – só estavam disponíveis quanto aos quase 300.000 usuários que fizeram o teste, ou seja, 99,5% das entradas coletadas pela CA não continham informações referente à “abordagem psicológica” da empresa.
  • Os respondentes do teste de Kogan foram recrutados através de serviços pagos, plataformas reconhecidas por trazer força de trabalho através de fazendas de cliques; o próprio Kogan, em sua audiência, chamou os dados de “barulhento” e “sem valor” para anúncios políticos.

Ou seja, resumindo ainda nas palavras de Venturini e Rogers, “o ‘big data’ o qual a CA se gaba é questionável em qualidade e origem, falho por cobertura desigual e antiético em sua coleta” (p. 3). O caso da Cambridge Analytica é interessante por porque eles fizeram tudo numa brecha extremamente perigosa que o próprio Facebook deixou aberta por anos (que foi a v1.0 da Graph API) – esse artigo discute bem quanto a isso, basicamente argumentando como a prática da empresa não é nada do que agências do mundo inteiro não tenham feito nos últimos anos; e porque, mesmo assim, eles aparentemente fizeram tudo errado – como apontam (e batem com gosto) os pesquisadores, desfazendo seus argumentos (metodológicos).

Aleksandr Kogan em depoimento sobre seu trabalho com a Cambridge Analytica

Venturini e Rogers chamam atenção para os dois principais supostos trunfos da CA: a “segmentação de audiência através de análise sofisticada de personalidade” e a identificação de ideias conspiratórias para o direcionamento de fake news. Quanto ao primeiro, reforçam que eles só tinham os dados psicológicos de 300.000 usuários (e não 80 milhões) e que basicamente o Facebook não tem uma opção de segmentação para pessoas a partir de “estados da mente”, então perfis psicológicos não seriam tão úteis assim; e, quanto ao segundo, é muito mais provável que tenham obtido essas informações através de questionários e focus group – do que através de rastros online.

Então, se o valor dos dados da Cambridge Analytica eram tão irrelevantes e provavelmente não tiveram poder nenhum para anúncios de campanhas políticas, por que Zuckerberg não contra-argumentou quanto a isso em sua audiência? Segundo os autores, por dois motivos:

  1. Para que o Facebook fosse visto não como protagonista da história, mas como coadjuvante, “um provedor de infraestrutura desajeitado, mas humilde”;
  2. Porque o Facebook faz basicamente a mesma coisa que a Cambridge Analytica fez (o que volta para o artigo que citei anteriormente), “ambos sustentam seu mercado de anúncios ostentando o poder de seus dados e social analytics”.

Fechando essa seção com chave de ouro, em uma das citações mais poderosas do texto, os autores explicam: “As mídias sociais não liberaram descuidadamente levas de dados sensíveis pré-existentes que agora precisam ser controladas”. Muito pelo contrário, “elas [as empresas de mídias sociais] construíram proposital e implacavelmente a profecia auto-realizável do ‘marketing computacional’ e, para fazer isso, criaram um novo tipo de dado para sustentá-la” (p. 3-4). Ou seja, as plataformas criaram, principalmente de uns anos pra cá, o próprio ecossistema de venda de dados dos seus próprios usuários em troca de lucro (e esse modelo de negócio é o que as têm sustentado).

Pesquisa com APIs e trabalho de campo digital

A segunda parte do texto basicamente discorre sobre aquela máxima de que há males que vem para o bem. Depois de bater muito na Cambridge Analytica e no Facebook (e em agências de marketing em geral), Venturini e Rogers admitem que “a crescente preocupação pública gerada por isso [o caso da CA] e por outros escândalos recentes relacionados a campanhas eleitorais deve fazer com que [as APIs] fechem ainda mais” (p. 4) e isso é uma oportunidade para pesquisadores darem um passo para trás e repensarem o modo de fazer pesquisa online.

“Registros digitais vêm num nível muito mais fino de agregação do que demografia e questionários. Eles permitem não apenas calibrar categorias e opiniões, mas examinar interações palavra por palavra. Antes do advento da mediação digital, isso só era possível nas pequenas e situadas comunidades as quais pesquisadores podiam observar etnograficamente. Hoje em dia, uma investigação tão sensível quanto é possível para populações maiores, aumentando as possibilidades em tempo e espaço.”

(VENTURINI; ROGERS, 2019)

Eles argumentam que, principalmente nesta década (na qual houve um estrondo absurdo também da popularidade de sites de redes sociais), pesquisadores acabaram tendo o trabalho enviesado pelas infraestruturas de coleta de registros digitais. “Comparada a técnicas anteriores de coleta de registros digitais, as APIs das mídias sociais vieram como um presente de Deus, oferecendo imensa quantidade de dados acessíveis em alguns cliques prontos para serem analisados” (p. 4), explicam. Isso foi fruto, no entanto, de uma concentração (e praticamente um monopólio do Facebook) das discussões online que também fizeram parte do contexto de venda de anúncio publicitário dessas plataformas (onde acontecem as discussões).

“Ao construir as infraestruturas necessárias para apoiar e rastrear a crescente quantidade de interações online e ao tornar os registros resultantes disponíveis através das APIs, as plataformas reduziram significativamente os custos dos dados de mídias sociais”, explicam. “A facilidade da pesquisa com APIs [ou API-research, a qual descrevem como ‘uma abordagem às Ciências Sociais Computacionais e Sociologia Digital baseada na extração de registros de datasets disponibilizados por plataformas onlines através das suas interfaces de aplicação de programação (APIs)’] – veio com o preço de aceitar a padronização particular operada pelas plataformas de mídias sociais e o enviesamento que vem junto” (p. 5), completam.

Aqui os autores chamam atenção de um assunto sobre o qual eu penso já há algum tempo: a euforia (negligente) dos dados. Nós, tanto pesquisadores acadêmicos quanto profissionais do mercado, criamos uma bolha que eventualmente iria estourar. “Num frenesi consumista, nós estocamos dados como commodities produzidas em massa”, alertam. “A pesquisa com APIs é culpada (pelo menos em parte) por espalhar o hype dos dados de mídias sociais, reduzindo a diversidade de métodos digitais ao estudo de plataformas online, e por espalhar as ideias pré-concebidas de que o Facebook, o Google, o Twitter e seus semelhantes são os mestres do debate online, e não há alternativas a não ser viver sob as migalhas de suas APIs” (p. 5).

Como mencionei anteriormente, portanto, sobre males que vem para o bem, eles argumentam que “o fechamento das APIs das mídias sociais devem nos lembrar de que dinâmicas coletivas existiam muito antes das plataformas sociais (e ainda existem junto a elas” – e, portanto, “não são a única maneira de estudar fenômenos online” (p. 5). Dentre algumas alternativas possíveis, citam “crawling” e “scraping” tanto quanto participar ativamente dos websites para gerar registros válidos. E ainda que esses métodos de pesquisa tenham seus enviesamentos e limitações, além de serem difíceis e trabalhosos, Venturini e Rogers argumentam que esses “maus necessários” têm pelo menos três vantagens:

  1. A coleta de registros feito de maneira direta (e não pelas APIs) permite que os pesquisadores também analisem as dinâmicas da plataforma tal qual os usuários as vivenciam – a interação com os atores/participantes pode ainda ser um ponto positivo (como no caso de moderadores fornecendo o arquivo de discussão de um grupo), encorajando o diálogo entre ambas as partes;
  2. O fechamento das APIs de gigantes como Facebook, Twitter e Google força voltarmos o olhar a outras alternativas de fonte de dados que, a depender do assunto, podem conter informações muito mais valiosas;
  3. Não é o fim da coleta de dados de grandes plataformas, com soluções em parcerias entre pesquisa e indústria como no projeto Social Science One.

Novamente fechando com grande estilo, eles argumentam que “as restrições de APIs podem acabar sendo algo bom se encorajarem pesquisadores a voltarem ao trabalho de campo”. Explicam que “reduzir nossa dependência em dados padrões das APIs não significa desistir do projeto de colher dados ricos de grandes populações, mas implica em investir nos esforços necessários para cultivar tais dados”. Para finalizar num tom mais ameno: “a consulta de APIs por si só pode ser uma forma de trabalho de campo quando não é uma acumulação de atacado de dados só pela larga quantidade, mas um trabalho cuidadoso de extração desenvolvido em colaboração com as plataformas e seus usuários”.

Algumas implicações políticas

Na última seção, mais curta (e concisa) que as demais, eles discorrem brevemente sobre a ideia de que as mídias sociais seriam o principal – único e/ou melhor – meio para estudar fenômenos sociais. Nesse sentido, eles discutem sobre as plataformas não essencialmente sob uma perspectiva metodológica, mas sob um olhar mais apurado – crítico e teórico, eu diria – sobre as dinâmicas sociais as quais sustentam e pelas quais são sustentadas.

Eles argumentam que o caso da Cambridge Analytica evidencia “o quão facilmente o debate público pode ser poluído por marketing computacional”. Citando Henry Jenkins, afirmam que a influência dos dados de mídias sociais e seus sistemas de mensuração são maiores quando servem à proposta fruto da sua essência, que é “promover o tipo de atenção superficial mais adequada ao sistema contemporâneo de propaganda e entretenimento”. Esses sistemas foram desenvolvidos “para promover uma audiência de consumidores cujas características são opostas àquelas de um público democrático saudável” (p. 7).

“Por elas [as plataformas de mídias sociais] focarem em ações sem esforço como um clique, uma curtida e um compartilhamento, os sistemas de mensuração promovem um tipo de engajamento que é fácil e de pouca duração; por mensurar essas ações de maneira individualizada (em vez de comunitária), eles alimentam popularidade individual em vez de ação coletiva. Por isso resistir ser ‘capturado’ pela infraestrutura das mídias sociais é crucial não apenas metodologicamente, mas também politicamente”.

(VENTURINI; ROGERS, 2019)

Seja como indivíduo (usuário) ou pesquisador, é preciso ter cautela perante os sites de redes sociais. Como o último, levar sempre em consideração seu contexto de produção e seus enviesamentos: “pesquisa através de plataformas de mídias devem sempre também ser pesquisa sobre plataformas de mídia” (p. 8). Para Venturini e Rogers, precisamos abdicar do “conforto” das APIs e voltar a campo (digitalmente) se quisermos entender e apoiar o trabalho de atores sociais e políticos que anseiam por um debate público saudável.

Referência bibliográfica

Venturini, Tommaso, and Richard Rogers. 2019. “‘API-Based Research’ or How Can Digital Sociology and Digital Journalism Studies Learn from the Cambridge Analytica Affair.” Digital Journalism, Forthcoming.

Tags:

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *


Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.