trandatdt

privoxy

tor-proxy

Mở đầu

Cuộc chiến giữa những người quản trị website và những web crawler là những cuộc chiến không hồi kết. Một website thường chặn web crawler bằng cách chặn địa chỉ IP của nó. Vậy thì nếu crawler có thật nhiều IP là sẽ không lo bị chặn rồi đúng không nào? (Không đúng lắm, thử nghĩ xem nếu 1 tài khoản được truy cập liên tục từ nhiều IP thì có bị chặn không. Nhưng trong bài viết này mình chỉ đề cập tới khía cạnh chặn IP ?). Thực tế mỗi mạng chỉ được cấp một public IP mà thôi nên muốn đổi địa chỉ IP thì chúng ta phải tìm tới proxy hoặc VPN. Trong bài viết này mình chọn Tor để tạo một proxy server.

Read more...