The Regulation of Web Scraping : A brief Literature Review on Legal Frameworks and Access Control Mechanisms

Mätäsaho, Ossi

The Regulation of Web Scraping : A brief Literature Review on Legal Frameworks and Access Control Mechanisms

Mätäsaho, Ossi

2025-07-01

Kandidaatintutkielma

Data-arkkitehtuuri

Uwasa_2025_Matasaho_Ossi.pdf

2.58 MB

cc by-sa 4.0

Lataukset120

Pysyvä osoite

https://urn.fi/URN:NBN:fi-fe2025070176601

Kuvaus

Web scraping on vakiintunut olennaiseksi keinoksi digitaaliseen tiedonkeruuseen, mutta sen oikeudellinen asema on edelleen epäselvä. Tässä tutkielmassa tarkastellaan web scrapingin sääntelyä kahdesta vuorovaikutteisesta näkökulmasta kirjallisuuskatsauksen keinoin. Aineistona on käytetty tieteellistä kirjallisuutta, oikeudellisia lähteitä sekä teknisiä raportteja, joiden pohjalta on muodostettu kokonaiskuva nykyisestä sääntely-ympäristöstä ja sen haasteista. Tarkastelu keskittyy tutkimuskysymyksiin: millaisia oikeudellisia haasteita web scrapingiin liittyy, sekä mitä menetelmiä yleisesti käytetään verkkosivustojen automatisoidun käytön rajoittamiseen. Tutkimuksen tavoitteena on lisätä ymmärrystä web scrapingin sääntelyn nykytilasta, sekä oikeudellisten ja teknisten ratkaisujen keskinäisestä suhteesta. Laillinen viitekehys rakentuu erityisesti Euroopan unionin tietokantojen suojaa koskevasta sääntelystä, kuten tietokantadirektiiveistä ja teksti- ja datanlouhintaa koskevista poikkeuksista direktiivissä 2019/790. Lisäksi huomio kiinnitetään eri oikeudenkäyttöalueiden hajanaisiin tulkintoihin ja siihen, kuinka nämä vaikuttavat web scrapingin laillisuuden arviointiin. Laillisen viitekehyksen lisäksi esitellään yleisiksi havaitut pääsynhallintamekanismit, jotka on jaettu teknisiin ja hallinnollisiin menetelmiin. Työssä on havaittu, että web scrapingin oikeudellinen asema on useimmiten tulkinnanvarainen, ja eri mekanismien oikeudellinen sitovuus vaihtelee myös tapauskohtaisesti. Tekniset pääsynhallintamekanismit eivät aina estä tehokkaasti kehittyneitä automatisoituja järjestelmiä ja hallinnollisten menetelmien, kuten käyttöehtojen oikeudellinen painoarvo riippuu niiden teknisestä toteutuksesta. Näin ollen web scrapingin sääntely on nykytilassaan hyvinkin epäselvä, jolloin tulkinnat sen laillisuudesta voivat vaihdella paljonkin. Tutkielma auttaa ymmärtämään automatisoitua tiedonkeruuta koskevaa monimutkaista sääntely-ympäristöä ja havainnollistaa kuinka lainsäädäntö, ja pääsynhallintamekanismit ovat olennaisesti sidoksissa toisiinsa. Jatkotutkimusehdotuksina esitetään: syksyllä 2025 sovellettavaksi tulevan EU Datasäädöksen vaikutuksia web scrapingiin, AI-kehityksen vaikutusta teknisten rajoitteiden toimivuuteen, vankkojen eettisten viitekehysten muodostamista web scrapingin harjoittamiseen.

Web scraping has become an established and essential method for digital data collection, but its legal status remains unclear. This thesis examines the regulation of web scraping from two interactive perspectives through a literature review. The material consists of scientific literature, legal sources, and technical reports, which together form an overall picture of the current regulatory environment and its challenges. The examination focuses on the following research questions: what kinds of legal challenges are associated with web scraping, and what methods are commonly used to restrict automated use of websites. The aim of the study is to increase understanding of the current state of web scraping regulation, as well as the interrelationship between legal and technical solutions. The legal framework is built especially on European Union regulation concerning database protection, such as the Database Directives and the exceptions for text and data mining in Directive 2019/790. Attention is also given to the fragmented interpretations across different jurisdictions and how these affect the assessment of the legality of web scraping. In addition to the legal framework, commonly observed access control mechanisms are presented, divided into technical and administrative methods. The study finds that the legal status of web scraping is most often open to interpretation, and the legal bindingness of different mechanisms also varies case by case. Technical access control mechanisms do not always effectively prevent advanced automated systems, and the legal significance of administrative methods, such as terms of use, depends on their technical implementation. Thus, in its current state, the regulation of web scraping is quite unclear, resulting in widely varying interpretations of its legality. The thesis helps to understand the complex regulatory environment surrounding automated data collection and illustrates how legislation and access control mechanisms are fundamentally interconnected. Suggested topics for further research include: the impact of the EU Data Act, which will apply from autumn 2025, on web scraping; the influence of AI development on the effectiveness of technical restrictions; and the formation of robust ethical frameworks for the practice of web scraping.

Tietueen kaikki tiedot

The Regulation of Web Scraping : A brief Literature Review on Legal Frameworks and Access Control Mechanisms

Toimittaja(t)

Pysyvä osoite

Kuvaus

URI

DOI

Emojulkaisu

ISBN

ISSN

Aihealue

OKM-julkaisutyyppi