De patronen van scrapers zijn echt significant anders dan die van gebruikers, dus die moet je relatief makkelijk kunnen afremmen.
Ja, als je enkel puur scraped vanuit een enkel IP en met dezelfde headers. Laat me je introduceren op manieren dat je voorbij blocks komt:
* Veranderende TLS (een manier dat cloudflare scraping probeert tegen te houden is door TLS fingerprinting)
* Proxies / roterende IPs (en met IP6 is dat nog makkelijker of je moet ganse /64 ... whatever blocks gaan blokkeren)
* Veranderende headers dat overeen komen met de actueel browsers. Aka, je scrapt niet met een lege basis header maar een dat overeen komt met wat de site verwacht.
* headless browsers indien men JS trucjes probeert uit te halen
* Virtual Profile (virtuele clients opbouwen dat repeating zijn, aka, dat overkomen als echte clients en waar hun headers enz dezelfde blijven maar dat een patroon van topics volgen / herscrapen)
* Account profiles (see hierboven maar waarbij je accounts aanmaakt, en ieder account, iedere dag in bepaalde interesten blijft scrapen). Zeer moeilijk te herkennen buiten random checks te laten uitvoeren.
* En het lezen van de github waar mensen anti-scraping integeren in hun software en dan doe je gewoon het omgekeerde (zoals bepaalde browser hebben bugs/featires dat men kan gebruiken om scraping te verhinderen,maar als je dat weet, mimic je dat gedrag. Of je gebruikt gewoon een headless browser)
En hou rekening, eenmaal dat je de content van een site gescrapt hebt, is ga je zoeken op nieuw content, aka, je scraping word geen 10 tal miljoenen aan calls meer om alles binnen te halen. Het probleem voor sites om scraping tegen te houden, is dat men meer en meer naar special gevallen moeten zoeken om scraping bots te herkennen.
Waar een scraper, eenmaal dat men een goed systeem opgebouwd heeft, datzelfde systeem kan blijven hergebruiken op alle websites (mits hier en daar updates voor als iemand een nieuw trukje vond).
Het is een oorlog dat je automatics verliest want de scraper moet zich geen zorgen maken over het clientele. Als website beheerder moet je opletten dat je anti-scraping geen echte gebruikers plat legt zoals mensen dat niet standaard chromium browsers gebruiken of andere patroon hebben dan normaal. Waar een scraper met minder moeite te block can omzeilen.
En scraping is ook big business. Er zijn bedrijven dat zich specialiseren in scraping van content, en waar je een 500$ betaald voor miljoenen calls per maand. En die doe als de fixes als een site de boel blokkeer. De realiteit is, dat als men je data wilt, dat men het te pakken krijgt. En tegen een VEEL goedkopere prijs dan wat vele bedrijven hun API aanbieden. Ironisch is het beschermen van je website tegen scraping, eigenlijk duurder want je moet volledige pages renderen van je server, dat de scraper enkel stukjes uithaalt. Waar als je die data aanbied goedkoop via een API, dan gaat men gewoon gebruik maken van de API en je servers kreunen minder.
De realiteit is, er is een ganse industrie dat zich hiermee bezig houd en het actueel scrapen zelf is niet illegaal, het is wat je met de data doet is waar het issue is. En als die data verwerkt zit in AI modelen, veel plezier om dat te ontdekken.
De enige manier dat je scraping tegenhoud is betaalde diensten (en dan zal er ook wel een illegale dienst komt van gestolen accounts/gestolen paypal enz, dat scraping zal aanbieden). Maar betaalde diensten zijn ENORM moeilijk om op te bouwen want mensen hebben maar zoveel vrij geld iedere maand. En dan geven ze dat geld enkel aan de hoge / belangrijke diensten... Spotify, Youtube (als ze echt addblockers gaan tegenhouden), streaming diensten. En plop, geen geld meer voor andere diensten. Dat is het probleem een beetje deze dagen. Eenmaal dat alles te veel betalende word, verlies je gebruikers en gaan mensen de illegible route weer in. En ... hello scrapers.
Het is echt een cycle dat de meeste bedrijven niet begrijpen. Mensen zijn geen potjes van ongelimiteerd geld en dat is doenbaar als je als bedrijf opgebouwd hebt in een monopolie positie in een markt segment maar al de rest, tja ...
Author: Antonio Duke
Last Updated: 1699213803
Views: 829
Rating: 3.9 / 5 (88 voted)
Reviews: 96% of readers found this page helpful
Name: Antonio Duke
Birthday: 1937-01-13
Address: 67146 Veronica Landing, East Amyland, NJ 08821
Phone: +4346204371593984
Job: Article Writer
Hobby: Painting, Hiking, Swimming, Surfing, Soccer, Skateboarding, Embroidery
Introduction: My name is Antonio Duke, I am a persistent, fearless, talented, striking, Colorful, artistic, resolved person who loves writing and wants to share my knowledge and understanding with you.