Câu hỏi Tôi làm cách nào để tải xuống toàn bộ trang web?


Tôi làm cách nào để tải xuống tất cả các trang từ một trang web?

Mọi nền tảng đều ổn.


314


gốc


Kiểm tra serverfault.com/questions/45096/website-backup-and-download Lỗi máy chủ. - Marko Carter
@tnorthcutt, tôi cũng ngạc nhiên. Nếu tôi không nhớ sai lầm quá mức, câu trả lời của tôi là một câu trả lời được chấp nhận, và điều này trông giống như một điều ổn định. Tôi không phàn nàn mặc dù - tất cả một sự đột ngột của sự chú ý mới đã cho tôi nhiều hơn giá trị đại diện của bounty. : P - Jonik
bạn đã thử IDM chưa? superuser.com/questions/14403/… bài viết của tôi bị chôn vùi. Bạn đã tìm thấy gì trong IDM? - Lazer
@ joe: Có thể giúp đỡ nếu bạn cung cấp thông tin chi tiết về những tính năng còn thiếu là gì ... - Ilari Kajaste
browse-offline.com có thể tải xuống cây hoàn chỉnh của trang web để bạn có thể ... duyệt qua nó ngoại tuyến - Menelaos Vergis


Các câu trả lời:


HTTRACK hoạt động như một nhà vô địch để sao chép nội dung của toàn bộ trang web. Công cụ này thậm chí có thể lấy các phần cần thiết để làm cho một trang web có nội dung mã hoạt động ngoại tuyến. Tôi ngạc nhiên trước những thứ mà nó có thể sao chép ngoại tuyến.

Chương trình này sẽ làm tất cả những gì bạn cần.

Đi săn vui nhé!


303



Được sử dụng này trong nhiều năm - rất khuyến khích. - Umber Ferrule
Bạn cũng có thể giới hạn tốc độ tải xuống để bạn không sử dụng quá nhiều băng thông để gây thiệt hại cho mọi người khác. - Umber Ferrule
Điều này sẽ sao chép mã ASP thực tế chạy trên máy chủ mặc dù? - Taptronic
Giải pháp @Optimal: Không, điều đó là không thể. Bạn sẽ cần truy cập vào các máy chủ hoặc mã nguồn cho điều đó. - Sasha Chedygov
Sau khi thử cả hai httrack và wget cho các trang web với sự cho phép, tôi phải dựa vào sự ủng hộ của wget. Không thể nhận được httrack để làm việc trong những trường hợp đó. - Leo


Wget là một công cụ dòng lệnh cổ điển cho loại tác vụ này. Nó đi kèm với hầu hết các hệ thống Unix / Linux, và bạn có thể nhận được nó cho cửa sổ quá. Trên máy Mac, Homebrew là cách dễ nhất để cài đặt nó (brew install wget).

Bạn sẽ làm một cái gì đó như:

wget -r --no-parent http://site.com/songs/

Để biết thêm chi tiết, hãy xem Hướng dẫn sử dụng Wget và nó ví dụhoặc ví dụ: những:


240



Không có câu trả lời nào tốt hơn thế này - wget có thể làm bất cứ điều gì: 3 - Phoshi
1 để bao gồm --no-parent. chắc chắn sử dụng - thay vì -r. và bạn có thể muốn bao gồm -L / - liên quan đến việc không theo các liên kết đến các máy chủ khác. - quack quixote
Như tôi cũng đã hỏi cho httrack.com - công cụ dòng cmd này có được ASP không mã hoặc nó sẽ chỉ nhận được kết xuất của HTML? Tôi phải thử cái này. Điều này có thể là một chút đáng lo ngại cho các nhà phát triển nếu nó ... - Taptronic
@ tối ưu, đầu ra HTML của khóa học - nó sẽ chỉ nhận được mã nếu máy chủ bị định cấu hình sai - Jonik
Thật không may nó không làm việc cho tôi - có một vấn đề với các liên kết đến các tập tin css, họ không thay đổi để tương đối tức là, bạn có thể thấy một cái gì đó như thế này trong các tập tin: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> mà không hoạt động tốt tại địa phương, trừ khi có một waz để lừa firefox để nghĩ rằng một số dir là một gốc. - gorn


Sử dụng wget:

wget -m -p -E -k www.example.com

Các tùy chọn được giải thích:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

123



1 để cung cấp giải thích cho các tùy chọn được đề xuất. (Mặc dù tôi không nghĩ --mirror rất tự giải thích. Đây là trang của người đàn ông: "Tùy chọn này bật tính năng đệ quy và dập thời gian, đặt độ sâu đệ quy vô hạn và giữ danh sách thư mục FTP. Nó hiện tương đương với -r -N -l inf --no-remove-listing") - Ilari Kajaste
Nếu bạn không muốn tải mọi thứ xuống thư mục có tên miền bạn muốn sao chép, hãy tạo thư mục của riêng bạn và sử dụng tùy chọn -nH (bỏ qua phần lưu trữ). - Rafael Bugajewski
Còn nếu Auth được yêu cầu? - Val
Tôi đã thử sử dụng wget --mirror -p --html-extension --convert-links www.example.com và nó vừa tải xuống chỉ mục. Tôi nghĩ bạn cần -r để tải xuống toàn bộ trang web. - Eric Brotto
đối với những người lo ngại về việc giết một trang web do lưu lượng truy cập / quá nhiều yêu cầu, hãy sử dụng -w seconds (để đợi một số giây giữa các yêu cầu hoặc --limit-rate=amount, để chỉ định băng thông tối đa để sử dụng trong khi tải xuống - vlad-ardelean


Bạn nên nhìn vào Sổ lưu niệm, một phần mở rộng của Firefox. Nó có một chế độ chụp chiều sâu.

enter image description here


8



Không còn tương thích với Firefox sau phiên bản 57 (Quantum). - Yay295


Internet Download Manager có một tiện ích Site Grabber với nhiều tùy chọn - cho phép bạn tải xuống hoàn toàn bất kỳ trang web nào bạn muốn, theo cách bạn muốn.

  1. Bạn có thể đặt giới hạn về kích thước của các trang / tệp để tải xuống

  2. Bạn có thể đặt số lượng trang web chi nhánh để truy cập

  3. Bạn có thể thay đổi cách hoạt động của script / popups / duplicate

  4. Bạn có thể chỉ định miền, chỉ trong miền đó tất cả các trang / tệp đáp ứng các cài đặt bắt buộc sẽ được tải xuống

  5. Các liên kết có thể được chuyển đổi thành các liên kết ngoại tuyến để duyệt

  6. Bạn có các mẫu cho phép bạn chọn các cài đặt ở trên cho bạn

enter image description here

Tuy nhiên, phần mềm không miễn phí - xem nó có phù hợp với nhu cầu của bạn hay không, sử dụng phiên bản đánh giá.


8





itsucks - đó là tên của chương trình!


7





Tôi sẽ giải quyết bộ đệm trực tuyến mà các trình duyệt sử dụng ...

Thông thường, hầu hết các trình duyệt đều sử dụng bộ nhớ cache duyệt để giữ các tệp bạn tải xuống từ một trang web xung quanh một chút để bạn không phải tải xuống các hình ảnh tĩnh và nội dung lặp đi lặp lại. Điều này có thể tăng tốc độ mọi thứ một chút trong một số trường hợp. Nói chung, hầu hết bộ nhớ cache của trình duyệt được giới hạn ở kích thước cố định và khi nó đạt tới giới hạn đó, nó sẽ xóa các tệp cũ nhất trong bộ nhớ cache.

ISP có xu hướng có bộ nhớ đệm máy chủ lưu giữ bản sao của các trang web thường truy cập như ESPN và CNN. Điều này tiết kiệm cho họ những rắc rối của việc đánh các trang web này mỗi khi có ai đó trên mạng của họ đến đó. Điều này có thể giúp tiết kiệm đáng kể số lượng yêu cầu trùng lặp tới các trang web bên ngoài cho ISP.


5





tôi thích Trình khám phá ngoại tuyến.
Đó là một phần mềm chia sẻ, nhưng nó rất tốt và dễ sử dụng.


5