Bạn viết crawler chạy ngon trên máy, nhưng cứ crawl vài trăm request là dính lỗi 429, 403 hoặc captcha? Vấn đề gần như luôn nằm ở IP, không phải code. Bài này giải thích proxy crawl data là gì và cách dùng proxy để crawl dữ liệu ở quy mô lớn mà không bị chặn.
Proxy crawl data là gì? Vì sao crawl dữ liệu cần proxy?

Proxy tốc độ cao – Sẵn sàng dùng thử?
ALGO Proxy cung cấp proxy residential, datacenter và 4G tại 195+ quốc gia
Proxy crawl data là proxy đóng vai trò trung gian khi bạn thu thập dữ liệu từ website — mỗi request đi qua một IP khác nhau thay vì IP thật của bạn. Website đích chỉ thấy IP của proxy, nên không thể gắn toàn bộ lưu lượng vào một nguồn duy nhất.
Khi crawl dữ liệu (giá sản phẩm, bài đăng, kết quả tìm kiếm, dữ liệu thị trường...), bạn phải gửi rất nhiều request trong thời gian ngắn. Nếu tất cả đi từ một IP, website sẽ:
- Nhận ra hành vi bất thường (quá nhiều request/phút).
- Giới hạn tần suất (rate limit, lỗi HTTP 429).
- Chặn IP của bạn (lỗi 403) hoặc bắt giải captcha.
Proxy — đặc biệt là proxy xoay — phân tán request qua nhiều IP, giúp mỗi IP chỉ chịu tải nhẹ và trông giống người dùng thật.
Crawl data không proxy — vì sao bị chặn?
Hiểu cơ chế chặn thì mới crawl đúng. Bốn rào cản phổ biến khi crawl bằng một IP:
- Rate limit theo IP: Website đếm số request từ mỗi IP; vượt ngưỡng là trả 429 hoặc làm chậm.
- Chặn IP (IP ban): Khi phát hiện bot, website đưa IP vào blacklist tạm thời hoặc vĩnh viễn.
- Captcha / challenge: Cloudflare, reCAPTCHA chặn khi nghi ngờ tự động hóa.
- Chặn theo vùng (geo-block): Một số dữ liệu chỉ hiển thị đúng với IP đúng quốc gia/khu vực.
Loại proxy nào tốt nhất để crawl data?

Không có một loại proxy "đúng cho mọi trường hợp" — chọn theo độ khó của website mục tiêu:
| Loại proxy | Ưu điểm | Hạn chế | Hợp để crawl |
|---|---|---|---|
| Datacenter | Rất nhanh, rẻ | Dễ bị nhận diện | Site ít bảo vệ, API công khai |
| Dân cư (residential) | IP thật, khó bị chặn | Tốc độ dao động | Site có anti-bot mạnh |
| Dân cư xoay (rotating) | Mỗi request một IP | Cần quản lý phiên | Crawl quy mô lớn |
| Mobile 4G | Ẩn danh cao nhất | Chi phí cao hơn | Mục tiêu siêu nhạy cảm |
Với hầu hết dự án crawl nghiêm túc, proxy dân cư xoay là lựa chọn cân bằng tốt nhất giữa tỷ lệ thành công và chi phí.
Cách crawl data với proxy không bị chặn
Chọn đúng proxy mới là một nửa. Nửa còn lại là hành vi crawl giống người thật:
- Xoay IP theo request hoặc theo nhóm request để không IP nào vượt ngưỡng.
- Thêm độ trễ ngẫu nhiên giữa các request (vài trăm ms đến vài giây), tránh nhịp đều như máy.
- Đặt User-Agent và header hợp lệ, xoay vòng để không lộ dấu vết một client cố định.
- Giới hạn số luồng đồng thời (concurrency) ở mức hợp lý cho mỗi IP.
- Tôn trọng robots.txt và chỉ crawl dữ liệu công khai.
- Khớp đúng vùng địa lý khi dữ liệu phụ thuộc khu vực.
Ví dụ tối giản với Python requests dùng proxy:
import requests
proxies = {
"http": "http://user:pass@ip:port",
"https": "http://user:pass@ip:port",
}
r = requests.get("https://example.com/products", proxies=proxies, timeout=20)
print(r.status_code, len(r.text))
Crawl data quy mô lớn với proxy xoay + API

Khi crawl hàng chục nghìn đến hàng triệu trang, bạn cần tự động lấy IP mới thay vì cấu hình thủ công. TMProxy cung cấp API để lấy proxy mới ngay trong code crawler:
import requests
# Lấy proxy mới từ TMProxy
resp = requests.post(
"https://tmproxy.com/api/proxy/get-new-proxy",
json={"api_key": "API_KEY_CUA_BAN", "id_location": 0, "id_isp": 0},
timeout=20,
).json()
https_proxy = resp["data"]["https"] # dạng ip:port
# ... dùng https_proxy cho phiên crawl tiếp theo
Phản hồi còn trả về socks5, username, password, timeout và next_request (thời gian tối thiểu trước khi được đổi IP) — đủ để bạn xây vòng lặp xoay IP an toàn cho crawler.
| Cấu hình | Tỷ lệ thành công | Bị chặn / captcha |
|---|---|---|
| 1 IP cố định | Thấp | Rất nhiều |
| Pool datacenter xoay | Khá | Trung bình (site lớn) |
| Pool dân cư xoay (TMProxy) | Cao | Rất ít |
Pool dân cư xoay cho tỷ lệ thành công cao nhất trên các site có anti-bot.
Sai lầm thường gặp khi crawl data
TMProxy — giải pháp proxy crawl data tại Việt Nam
Để crawl dữ liệu ổn định, bạn cần một pool IP lớn, sạch và có API để xoay tự động. TMProxy đáp ứng đúng nhu cầu này:
- Hàng triệu IP dân cư thật phủ 63 tỉnh thành — khó bị nhận diện khi crawl.
- Proxy xoay + API (
get-new-proxy,get-current-proxy) để tích hợp thẳng vào crawler. - Hỗ trợ HTTP/HTTPS và SOCKS5, tương thích mọi thư viện crawl phổ biến.
- Nhắm mục tiêu theo tỉnh/thành và nhà mạng, hợp với dữ liệu phụ thuộc vùng.
- Cam kết không bán proxy "chết" và hỗ trợ kỹ thuật 24/7.
Kết luận: Proxy crawl data là mảnh ghép quyết định việc crawler của bạn chạy bền hay bị chặn sau vài trăm request. Chọn đúng loại proxy (ưu tiên dân cư xoay), crawl với hành vi giống người thật, và dùng API để xoay IP tự động — đó là công thức để crawl dữ liệu quy mô lớn mà không bị block.









