Proxy GitHub giúp truy cập GitHub khi bị chặn bởi tường lửa, bypass rate limit API và thu thập dữ liệu từ repository công khai. Bài viết hướng dẫn cách cấu hình proxy cho Git CLI, GitHub API và các công cụ scraping.
Proxy tốc độ cao – Sẵn sàng dùng thử?
ALGO Proxy cung cấp proxy residential, datacenter và 4G tại 195+ quốc gia
Proxy GitHub là gì?

Proxy GitHub là proxy được sử dụng để truy cập GitHub.com và GitHub API — nền tảng hosting mã nguồn lớn nhất thế giới với hơn 100 triệu developer và 400 triệu repository.
Có 3 lý do chính cần proxy cho GitHub:
- Bị chặn truy cập — mạng doanh nghiệp, trường học hoặc một số quốc gia chặn GitHub.
- Rate limit API — GitHub giới hạn số request API theo IP hoặc token.
- Thu thập dữ liệu — scrape thông tin repository, contributor, code snippet quy mô lớn.
Khi nào cần Proxy cho GitHub?

| Tình huống | Mô tả | Loại proxy phù hợp |
|---|---|---|
| Mạng chặn GitHub | Tường lửa doanh nghiệp/trường học chặn github.com | HTTP/SOCKS5 proxy |
| Clone/push chậm | Tốc độ Git qua mạng kém | Proxy gần server GitHub |
| API rate limit | Cần gọi API nhiều hơn 5000 req/giờ | Nhiều IP + token |
| Scraping repository | Thu thập dữ liệu từ nhiều repo | Residential/datacenter proxy |
| CI/CD bị chặn | Pipeline không thể pull code từ GitHub | Proxy cho CI server |
Cách cấu hình Proxy cho Git CLI

HTTP/HTTPS Proxy:
# Cấu hình global
git config --global http.proxy http://proxy.tmproxy.com:8080
git config --global https.proxy http://proxy.tmproxy.com:8080
# Proxy có xác thực
git config --global http.proxy http://user:pass@proxy.tmproxy.com:8080
# Chỉ proxy cho GitHub (không ảnh hưởng domain khác)
git config --global http.https://github.com.proxy http://proxy.tmproxy.com:8080
SOCKS5 Proxy (cho SSH):
# Cấu hình SSH proxy trong ~/.ssh/config
Host github.com
ProxyCommand nc -x proxy.tmproxy.com:1080 %h %p
# Hoặc dùng connect
ProxyCommand connect -S proxy.tmproxy.com:1080 %h %p
Biến môi trường:
export HTTP_PROXY=http://proxy.tmproxy.com:8080
export HTTPS_PROXY=http://proxy.tmproxy.com:8080
export NO_PROXY=localhost,127.0.0.1
Gỡ proxy:
git config --global --unset http.proxy
git config --global --unset https.proxy
GitHub API Rate Limit và Proxy

GitHub API có hệ thống rate limit nghiêm ngặt:
| Loại xác thực | Rate Limit | Reset |
|---|---|---|
| Không xác thực | 60 request/giờ (theo IP) | Mỗi giờ |
| Personal Access Token | 5,000 request/giờ | Mỗi giờ |
| GitHub App | 15,000 request/giờ (mỗi org) | Mỗi giờ |
| GraphQL API | 5,000 point/giờ | Mỗi giờ |
Proxy giúp tăng tổng rate limit bằng cách:
- Xoay IP — mỗi IP có rate limit riêng cho request không xác thực.
- Kết hợp nhiều token + nhiều IP — phân tán request qua proxy pool.
- Retry với IP khác — khi bị rate limit (HTTP 429), tự động chuyển IP.
Tuy nhiên, nếu dùng Personal Access Token, rate limit theo token chứ không theo IP — proxy chỉ hữu ích khi request không xác thực hoặc khi token bị rate limit cần chuyển IP để reset.
Thu thập dữ liệu GitHub

Các loại dữ liệu có thể thu thập từ GitHub:
- Repository metadata — tên, mô tả, stars, forks, language, license.
- Code search — tìm kiếm code snippet, file, pattern trong public repo.
- Contributor data — danh sách contributor, commit history, activity.
- Issue/PR data — issue, pull request, comments, labels.
- Release data — version, changelog, download count.
Phương pháp scraping:
| Phương pháp | Tốc độ | Rate limit | Dữ liệu |
|---|---|---|---|
| REST API v3 | Nhanh | 5000 req/giờ (token) | Structured JSON |
| GraphQL API v4 | Rất nhanh | 5000 point/giờ | Flexible query |
| HTML scraping | Chậm | Không chính thức | Full page data |
| Git clone | Tùy repo | Không giới hạn | Full repo |
Nên dùng GitHub API thay vì HTML scraping — API nhanh hơn, ổn định hơn và dữ liệu có cấu trúc.
Kết luận: Proxy GitHub giúp truy cập GitHub khi bị chặn bởi tường lửa, bypass rate limit API và thu thập dữ liệu repository. Datacenter proxy đủ cho truy cập thông thường, residential proxy phù hợp cho scraping quy mô lớn. Luôn ưu tiên GitHub API chính thức và tuân thủ rate limit.









