Hoe werkt het Twitter-algoritme? De geheimen onthuld

Elon Musk heeft zichzelf echt overtroffen – hij heeft niet alleen de broncode voor het aanbevelingsalgoritme van Twitter verstrekt zoals hij half maart had beloofd, maar hij is ook een stap verder gegaan en heeft aanvullende informatie over de werking van het algoritme gepubliceerd op de technische blog van Twitter!

Twitter will open source all code used to recommend tweets on March 31st
— Elon Musk (@elonmusk) March 17, 2023

Most of the recommendation algorithm will be made open source today. The rest will follow.

Acid test is that independent third parties should be able to determine, with reasonable accuracy, what will probably be shown to users.

No doubt, many embarrassing issues will be… https://t.co/41U4oexIev
— Elon Musk (@elonmusk) March 31, 2023

Elon Musk hield woord en gaf de broncode van Twitter voor zijn aanbevelingsalgoritme vrij. Dit was een grote stap, en hij heeft de verwachtingen overtroffen met nog meer functies die sindsdien zijn toegevoegd.

De code van Twitter is nu beschikbaar voor het publiek op GitHub, en er is een beknopte beschrijving van hun redenering erachter aan het bestand toegevoegd. Bovendien zijn ze in een technische blogpost dieper ingegaan op de werking van het algoritme.

Volgens Twitter proberen de aanbevelingsalgoritmen vragen te beantwoorden zoals de kans dat een gebruiker zich in de toekomst met een andere gebruiker inlaat.

Of hoe een trend toevallig een trend is onder gemeenschappen op Twitter. En hoe dit alles ervoor zorgt dat je de beste content voor jouw feed krijgt.

Twitter maakt gebruik van de tweet-, gebruikers- en engagementgegevens die het verzamelt om alleen die tweets te leveren die je mogelijk interessant vindt. Dit gebeurt door ze te rangschikken en content uit te filteren op basis van gebruikersvoorkeuren.

Hoe het algoritme werkt

De ‘Voor jou’-tijdlijn op Twitter wordt aangedreven door de revolutionaire Home Mixer-technologie. Dit algoritme verzamelt, rangschikt en filtert tweets om gebruikers de meest relevante en geschikte content te bieden op basis van hun voorkeuren.

Soorten bronnen

Twitter begint gewoonlijk met het tonen van tweets van zowel mensen die je volgt (In-Network Sources) als mensen buiten jouw netwerk (Out-of-Network Sources).

Bronnen binnen het netwerk

Real Graph, een model dat is ontworpen om de waarschijnlijkheid van interacties tussen gebruikers te meten, bepaalt wat er op jouw tijdlijn verschijnt als het gaat om tweets van binnen het netwerk. Als de kans groter is dat je in contact komt met de maker van de tweet en omgekeerd, krijg je meer van hun berichten te zien.

Bronnen buiten het netwerk

De Out-of-Network algoritmes van Twitter kunnen ontmoedigend zijn omdat ze content kunnen identificeren die relevant is voor gebruikers zonder dat ze andere accounts hoeven te volgen.

Twitter gebruikt zijn sociale grafiek om relevante content voor zijn gebruikers te verzamelen. Het stelt vragen als “Waarover discussiëren jouw volgers?” & “Welke tweets vonden mensen met dezelfde interesses als jou leuk?”. Dit helpt bij het aanbevelen van interessante content.

Tweets buiten het netwerk worden verzameld met behulp van ingebedde ruimtemodellen om een hervormde classificatie te krijgen. Dit stelt je in staat om de tweets en klanten op te vangen die relevant zijn voor uw interesses en je samen te brengen met vergelijkbare interesses voor meer precisie.

SimClusters

Twitter gebruikt ook SimClusters om aanbevelingen te doen. SimClusters is een geweldig hulpmiddel voor het vormen van op gebruikers gebaseerde “gemeenschappen”. Hiermee kun je snel verschillende groepen aanmaken en lid worden op basis van gemeenschappelijke interesses – of het nu gaat om een kleine kring van goede vrienden of enorme wereldwijde netwerken. Je kunt ook deel uitmaken van meerdere gemeenschappen tegelijk.

Tweets die populair zijn binnen een bepaalde gemeenschap worden getoond aan meer leden van die gemeenschap, wat resulteert in een grotere betrokkenheid en een groter bereik.

Tweet rangen

Nadat Twitter zowel interne als externe bronnen heeft gescand op mogelijke tweets om in jouw tijdlijn te plaatsen, moet het deze rangschikken – met 1.500 als maximum. Twitter is niet openhartig geweest over de details van zijn tweetrangschikkingssysteem. Mensen hebben de code achter deze algoritmen onderzocht om erachter te komen hoe de verschillende signalen precies worden gewogen. Zo worden tweets met alleen URL’s lager gerangschikt, terwijl Twitter likes en Twitter retweets de zichtbaarheid enorm vergroten.

Maar over dit onderwerp gaf Twitter alleen commentaar:
“Ranking wordt bereikt met een ~48M parameter neuraal netwerk dat voortdurend wordt getraind op Tweet interacties om te optimaliseren voor positieve betrokkenheid (bijv. Likes, Retweets en Replies). Dit rangschikkingsmechanisme houdt rekening met duizenden kenmerken en geeft tien labels om elke Tweet een score te geven, waarbij elk label de waarschijnlijkheid van een engagement weergeeft. Wij rangschikken de Tweets op basis van deze scores.”

De filters

Het rangordesysteem van Twitter is ontworpen om irrelevante of ongewenste berichten uit jouw nieuwsfeed te filteren. Afgezien van geblokkeerde en gedempte accounts, richt het algoritme zich ook op content die van buiten jouw netwerk afkomstig is en hoe vaak ze zijn geëngageerd door iemand die u volgt.

Het resultaat

Aan het einde van het proces is het gewoon Twitter’s Home Mixer die jouw feed op het platform revolutioneert. Na de filters neemt het jouw aanbevolen tweets en mengt ze met advertenties, aanbevelingen voor volgers en andere content om een volledig gepersonaliseerde tijdlijn te creëren die is afgestemd op jouw interesses. Door de Home Mixer te doorlopen, bespaar je niet alleen tijd bij het bladeren door jouw tijdlijn, maar het bespaart je ook energie omdat het irrelevante berichten elimineert en in plaats daarvan content serveert die voor jou relevanter is.
Het verbazingwekkende feit is dat de duur van het proces ongeveer 1,5 seconden is, en dat het dagelijks 5 miljard keer wordt uitgevoerd.

Twitter onthult geheimen algoritme voor aanbevelingen