
Dmitry Kurkin
ANTWOORDEN OP DE MEESTE VRAGEN ZIJN SPANNEND VOOR ONS we zochten vroeger online. In de nieuwe serie materialen stellen we precies zulke vragen: brandend, onverwacht of veelvoorkomend - aan professionals op verschillende gebieden.

De flash mob 10 Year Challenge, die aan het begin van het jaar op sociale netwerken werd gelanceerd, leidde niet alleen tot complottheorieën, volgens welke het doel van de actie is om foto's van gebruikers te verzamelen en deze te gebruiken om het gezichtsherkenningssysteem te trainen, maar liet je ook weer nadenken over hoeveel ze weten over ons, sociale netwerken en derde partijen die met hen samenwerken (van commerciële bedrijven tot overheidsinstanties).
Het is geen geheim dat techreuzen de zogenaamde digitale voetafdrukken verzamelen en analyseren die elke dag door miljarden gebruikers worden achtergelaten. En dit besef creëert een nieuw soort angst voor "grote broer": sociale netwerken weten veel over ons, maar wat als ze te veel over ons weten? Kunnen big data worden gebruikt om alle verbanden, smaken, gewoonten van een persoon, zijn verleden en heden te achterhalen? En zo ja, wat kan ons verlangen om online te socializen, in de naam waarvan we vrijwillig informatie over onszelf delen, ons dan kwaad doen?
We vroegen experts hoe gebruikersgegevens door grote bedrijven worden verwerkt en hoe groot het gevaar is om op sociale media te worden geërfd.
Lilia Zemnukhova
Research Fellow, Centrum voor Wetenschappelijk en Technologisch Onderzoek, Europese Universiteit in St. Petersburg

De digitale voetafdruk bevat alle mogelijke soorten gegevens - dit zijn teksten, afbeeldingen, audio- en video-opnamen, geolocatie, evenals een enorme hoeveelheid metadata (bijvoorbeeld gadgetmodel, mobiele operator, besturingssysteem, dynamiek en duur van bezoeken, enz.). En niet alleen wij dragen bij aan onze digitale voetafdruk. Sociale media vormen ons als gebruikers met behulp van drie gegevensbronnen: wat we zelf over onszelf rapporteren; wat anderen over ons zeggen; en wat het vaakst wordt verzameld zonder onze medeweten. Vooral de ondoorzichtige laatste. We lezen over het algemeen geen gebruikersovereenkomsten en het beleid voor het verzamelen en gebruiken van persoonlijke gegevens. We merken alleen dat deze 'zwarte doos' op de een of andere manier onze gebruikerservaring beïnvloedt: gerichte advertenties, vriendensuggesties, muziekaanbevelingen, nieuwsbestelling … We construeren een klein deel van deze ervaring zelf, wanneer we handmatig een nieuwsfeed bouwen, maar meestal algoritmen functies uitvoeren die zijn ingebouwd in de standaardprofielen. Daarom zullen we nooit van PPC-advertenties of opdringerige suggesties van groepen of (on) kennissen afkomen. Sociale netwerken als bedrijven gebruiken gegevens over hun gebruikers voor commerciële doeleinden en bieden hun platform aan voor het verkopen van gerichte inhoud. En gaandeweg blijven ze gegevens over ons verzamelen: als je bijvoorbeeld minstens één keer voor reclame hebt betaald, blijven ook de bankpas- en transactiegegevens bij het bedrijf. Gegevens kunnen indien nodig ook aan overheidsinstanties worden verstrekt: Facebook werkt bijvoorbeeld regelmatig samen met Amerikaanse overheidsinstanties, in overeenstemming met haar transparantiebeleid.
Naast het interne socialemediabeleid is er nog een ander belangrijk detail: accounts kunnen worden gekoppeld aan honderdduizenden andere applicaties en functies. Dit leidde vorig jaar bijvoorbeeld tot veel discussie over de toegang van derden tot gebruikersgegevens. Een belangrijke poging om de vrijheid van ontwikkelaars te reguleren is gedaan in de Europese Unie - vorig jaar is de Algemene Verordening Gegevensbescherming (AVG) in werking getreden. Hij loste het probleem van datatransmissie niet op, maar vestigde de aandacht van gebruikers op dit probleem. Dit verplicht ons niet om alle gebruikersovereenkomsten te lezen, maar het zet ons aan het denken en in ieder geval meer verantwoordelijk voor onze digitale voetafdrukken en het naleven van basisregels van digitale hygiëne.
Valeria Karavaeva
data scientist bij Spiking

Soms denken we er niet aan hoeveel sporen we op internet achterlaten en hoeveel het later bedrijven helpt, niet alleen sociale netwerken, maar ook sociale netwerken. Sociale netwerken verzamelen niet alleen gegevens voor zichzelf, ze kunnen deze ook verkopen - ik weet hiervan omdat ik bij een reclamebureau werkte en we gegevens van Facebook kochten. En vaker wel dan niet geven wij, gebruikers, hier toestemming voor, zonder het zelf te merken. Mensen brengen de helft van hun leven door op sociale netwerken en geven veel informatie over zichzelf.
Maar gegevens hadden eerder kunnen worden verzameld - dus waarom is er pas onlangs over big data gesproken? Ten eerste omdat de rekenkracht groeit en daardoor goedkoper wordt. De belangrijkste vraag van big data is niet hoe we gegevens verzamelen - in principe kan ieder van ons tegenwoordig terabytes aan informatie verzamelen en opslaan - maar hoe ermee te werken. De meeste gegevens die worden ontvangen van sociale netwerken (tekst, spraak, afbeeldingen, video's) zijn op geen enkele manier gestructureerd, dus zonder machine learning is big data nutteloos. Nu de kracht en het geheugen goedkoper zijn geworden, is de vraag naar neurale netwerken en deep learning toegenomen - we hebben eindelijk geleerd hoe we grote hoeveelheden gegevens kunnen verwerken.
Neem bijvoorbeeld foto's - en dit zijn echt big data, ze kunnen veel informatie geven. Er zijn miljoenen plaatjes, maar wat moet je ermee? Hoe kunt u hiervan profiteren? Welke patronen onthullen ze? Machine learning is nog niet zo ver gekomen. Dit is niet zo eenvoudig als het lijkt: er bestaat niet zoiets dat je op een knop drukt en binnen een week volledige berekeningen krijgt.
Machine learning wordt voorafgegaan door complexere taken. Dezelfde foto's moeten eerst op de juiste manier worden verwerkt (bijvoorbeeld bijsnijden, foto's centreren; dit is belangrijk voor training) - dit is de eerste fase, die meestal veel tijd kost. De tweede stap is het kiezen van een netwerkarchitectuur die geschikt is om het probleem op te lossen. Je bouwt grofweg tien verschillende neurale netwerken en ze leveren tien verschillende resultaten op. Vervolgens moeten de verkregen resultaten op de een of andere manier worden geëvalueerd. En daarna keert u hoogstwaarschijnlijk terug naar de eerste fase. Het is onrealistisch om voor welke taak dan ook één universeel netwerk op te bouwen: u bouwt het vanaf nul op of wijzigt het bestaande. Gezichtsherkenning is één taak, kattenherkenning is een andere.
We nemen ook deel aan het proces van machine learning zonder het te weten. Door bijvoorbeeld captcha in te voeren op sites: met captcha trainde Google neurale netwerken om boeken te digitaliseren.
Het moet duidelijk zijn dat bedrijven die big data verzamelen niet geïnteresseerd zijn in onze persoonlijke profielen. Ze willen gegevens over veel verschillende mensen die in iets in het bijzonder geïnteresseerd zijn. Wat betreft de inlichtingendiensten, ik denk dat ze gegevens kunnen verzamelen zonder hun toevlucht te nemen tot sociale netwerken. Ik denk dat onze angsten om gevolgd te worden snel voorbij zullen gaan. Dit is de nieuwe wereld: je kunt niet erven op het web, maar het is moeilijk. Het is gemakkelijker om helemaal niet op internet te verschijnen.
FOTO'S: antonsov85 - stock.adobe.com