Hướng dẫn tự động lấy bài từ các website khác về web wordpress của mình với WP Content Crawler

3 năm trước, Plugin, Thủ thuật web, 11141 Lượt xem

Đăng ký cập nhập video từ netweb.vn

ở bài viết này netweb.vn sẽ Hướng dẫn tự động lấy bài từ các website mà bạn muốn trên nền tảng wordpress với plugin WP Content Crawler, plugin này mình cũng đã dùng khá nhiều cho 1 số dự án của mình nhé, nên các bạn yên tâm

Giới thiệu về Trình thu thập thông tin nội dung WordPress

WordPress Content Crawler là một plugin WordPress có thể thu thập thông tin (quét, lấy, truy xuất) nội dung từ hầu hết mọi trang web hiện có trên Internet . Nó sử dụng các bộ chọn CSS để định vị và truy xuất nội dung trong mã nguồn của trang web đích. Các bộ chọn CSS rất dễ học và rất hữu ích để định vị thông tin trong trang web đích. Plugin cũng đi kèm với Trình kiểm tra trực quan mà bạn có thể sử dụng để nhấp vào một phần tử để tìm bộ chọn CSS của nó. Công cụ này cũng có khả năng tìm một bộ chọn CSS để tìm các mục tương tự như mục bạn nhấp vào. Tính năng này khá hữu ích nếu bạn muốn truy xuất, ví dụ, tất cả các URL trong một trang danh mục. Để biết thêm thông tin, vui lòng tham khảo tài liệu của nó.

Plugin có hơn 200 cài đặt để cho phép bạn không chỉ truy xuất nội dung mà còn truy xuất chúng theo cách bạn muốn. Ví dụ: bạn có thể thay đổi HTML của các phần tử hiện có trong mã nguồn, xóa phần tử, thay đổi thuộc tính của phần tử, trao đổi giá trị của hai thuộc tính của một phần tử, tìm và thay thế bất kỳ thứ gì trong mã nguồn, gán các phần tử nhất định cho một mã ngắn và sử dụng chúng trong các mẫu, và nhiều hơn nữa. Bạn có thể tham khảo phần Trang Cài đặt Trang để tìm hiểu thêm về tất cả các cài đặt của plugin. 

Plugin hoạt động bằng cách sử dụng WP-Cron . Tính năng này của WordPress cho phép các plugin và chủ đề xác định các công việc nhất định sẽ được kích hoạt vào những thời điểm nhất định. Các công việc này được chạy ở chế độ nền. Plugin xác định các công việc để tự động thu thập thông tin, thu thập lại thông tin (cập nhật) và xóa bài đăng. Bằng cách này, plugin có thể chạy ở chế độ nền và tự động thực hiện tất cả các công việc của nó. Do đó, một WP-Cron hoạt động là một yêu cầu của plugin. 

Nhận nội dung từ hầu hết mọi trang web vào blog WordPress của bạn một cách tự động!

WP Content Crawler có thể làm được nhứng gì?

  • Tạo một trang cá nhân thu thập tin tức, bài đăng, v.v. từ các trang yêu thích của bạn để xem chúng ở một nơi
  • Sử dụng nó với WooCommerce để thu thập sản phẩm từ các trang web mua sắm
  • Thu thập sản phẩm từ các chương trình liên kết để kiếm tiền
  • Thu thập các bài đăng để tạo môi trường thử nghiệm cho plugin / chủ đề của bạn
  • Thu thập các plugin, chủ đề, ứng dụng, hình ảnh từ các trang web khác để tạo bộ sưu tập chúng
  • Theo dõi các đối thủ cạnh tranh
  • Bạn có thể tưởng tượng bất cứ điều gì. Internet có đầy đủ nội dung:)

CHỨC NĂNG CHÍNH của WP Content Crawler

Lưu mọi chi tiết bài đăng
Tiêu đề, đoạn trích, nội dung, thẻ, danh mục, slug, ngày tháng, meta tùy chỉnh, phân loại, từ khóa meta, mô tả meta, hình ảnh nổi bật, hình ảnh bài đăng, trạng thái… Tất cả mọi thứ.

Trình kiểm tra trực quan
Chỉ cần nhấp vào một phần tử để tìm bộ chọn CSS của nó. Bạn cũng có thể nhận các bộ chọn CSS thay thế mà bạn có thể quan tâm. Không cần phải rời khỏi bảng quản trị của bạn nữa.

Thu thập thông tin (quét, lấy, lưu) bài đăng
Sau khi cài đặt được định cấu hình, plugin sẽ tìm URL của các bài đăng và tự động thu thập dữ liệu chúng trong nền.

Thu thập lại thông tin (cập nhật) bài
đăng Tự động thu thập lại thông tin bài đăng để luôn cập nhật chúng. Bạn có thể giới hạn số lần bài viết có thể được cập nhật, đặt khoảng thời gian cập nhật và bỏ qua các bài viết cũ.

Xóa bài đăng
Bạn muốn xóa các bài đăng cũ đã được thu thập thông tin? Plugin có thể xóa chúng tự động.

Lập lịch kiểm soát
Bạn có thể đặt số lần các sự kiện thu thập thông tin URL và đăng bài thu thập thông tin sẽ chạy mỗi lần cho một trang web. Ví dụ: bạn có thể lưu 3 bài đăng mỗi phút hoặc chạy bộ sưu tập URL 5 lần mỗi 2 phút.

Lưu danh mục
Danh mục mục tiêu không tồn tại trong trang web của bạn? Không vấn đề gì. Plugin có thể tạo các danh mục mục tiêu cho bạn. Chỉ cần xác định các bộ chọn CSS để tìm tên danh mục. Chúng thậm chí có thể được tạo dưới dạng danh mục con.

Lưu slugs (liên kết cố định)
Bạn có thể xác định liên kết cố định của các bài viết. Bạn có thể lấy liên kết cố định từ trang web đích, nhập văn bản tùy chỉnh và thậm chí tạo mẫu cho sên bằng cách sử dụng mã ngắn.

Lưu phân loại
Lưu các giá trị phân loại bằng cách truy xuất chúng từ trang đích hoặc nhập thủ công. Lưu chi tiết của các loại bài đăng tùy chỉnh dễ dàng hơn bao giờ hết.

Lưu bài đăng vào các danh mục tùy chỉnh
Một loại bài đăng tùy chỉnh có các danh mục tùy chỉnh? Không vấn đề gì. Bạn có thể xác định phân loại danh mục tùy chỉnh được sử dụng bởi loại bài đăng tùy chỉnh và chọn các danh mục đó khi xác định danh mục của bài đăng. Plugin cũng có thể tạo các danh mục tùy chỉnh cho bạn.

Meta bài đăng tùy chỉnh
Lưu mọi thứ dưới dạng meta bài đăng tùy chỉnh. Bạn có thể sử dụng bộ chọn CSS hoặc chỉ nhập giá trị.

Mẫu nội dung
Chuẩn bị nội dung bài đăng, tiêu đề, đoạn trích, mục danh sách và các mẫu mục thư viện bằng cách sử dụng mã ngắn. Hơn nữa, bạn có thể xác định các mẫu cho các giá trị của từng bộ chọn CSS bằng cách sử dụng hộp tùy chọn.

Các bộ chọn thay thế
Bạn có thể viết các bộ chọn thay thế để lấy dữ liệu ngay cả khi trang đích có các trang đăng được thiết kế khác nhau.

Tìm và thay thế bất kỳ thứ gì
Bạn có thể sử dụng văn bản thuần túy hoặc cụm từ thông dụng để tìm và thay thế bất kỳ thứ gì. Bạn thậm chí có thể sửa đổi HTML của trang, tạo các phần tử HTML của riêng bạn và viết các bộ chọn để sử dụng chúng. Bạn thậm chí có thể thay đổi URL của hình ảnh. Bạn có sức mạnh.

Bài viết đánh số trang
Target bài có nhiều hơn một trang? Đừng lo lắng. Bạn cũng có thể lưu các bài đăng được phân trang.

Danh sách loại bài đăng
Một số trang web tạo bài đăng với danh sách bên trong. Bạn có thể trích xuất danh sách từ bài đăng, tạo một mẫu áp dụng cho từng mục danh sách và thậm chí đảo ngược danh sách.

Loại bỏ các yếu tố không cần thiết
Đôi khi bạn cần loại bỏ một số yếu tố, chẳng hạn như quảng cáo, bình luận, bạn đặt tên cho nó. Chỉ cần viết bộ chọn CSS của nó và nó sẽ bị xóa.

Tự động chèn URL danh
mục Trang web mục tiêu có hàng trăm danh mục? Miếng bánh. Chỉ cần viết bộ chọn CSS và plugin sẽ chèn chúng cho bạn.

Bài kiểu
Set bài kiểu. Nó có thể là một bài đăng, một trang, một sản phẩm hoặc bất kỳ loại bài đăng nào khác có sẵn trong cài đặt WordPress của bạn.

Xóa liên kết
Bạn có thể xóa liên kết khỏi bài viết. Chỉ cần đánh dấu vào hộp kiểm và các liên kết đã biến mất. Điều đó dễ dàng.

Bảo vệ bằng mật khẩu
Bạn có thể đặt mật khẩu cho các bài đăng để chỉ hiển thị chúng cho những người dùng có mật khẩu.

Ghi chú
Bạn có thể thêm ghi chú cho chính mình để nhắc nhở bạn những điều về trang web. Bộ chọn CSS, danh sách VIỆC CẦN LÀM, bất cứ thứ gì.

Kiểm tra mọi thứ nhanh chóng
Kiểm tra thu thập thông tin bài đăng, thu thập URL, bộ chọn CSS, biểu thức chính quy, tìm và thay thế các tùy chọn và proxy một cách nhanh chóng. Bạn cũng có thể kích hoạt bộ nhớ đệm để thực hiện các bài kiểm tra nhanh hơn nhiều và giảm các yêu cầu được gửi đến trang web mục tiêu.

Kiểm tra tất cả cài đặt của một trang web cùng một lúc
Sử dụng trình kiểm tra, bạn có thể kiểm tra tất cả các tùy chọn bạn đã định cấu hình trong cài đặt trang web để đảm bảo mọi thứ hoạt động như bạn muốn trước khi bật thu thập thông tin tự động.

Công cụ
Sử dụng các công cụ này, bạn có thể lưu các bài đăng theo cách thủ công với URL của chúng, thu thập lại thông tin các bài đăng bằng ID của chúng hoặc xóa các URL đã được lưu.

Cài đặt chung tùy chỉnh cho từng trang
Bạn có thể cung cấp cài đặt chung tùy chỉnh cho từng bài đăng để ghi đè chúng và làm cho chúng phù hợp với một trang web.

Trạng thái bài đăng
Bạn có thể xuất bản trực tiếp các bài đăng đã lưu hoặc giữ chúng dưới dạng bản nháp để kiểm tra chúng trước khi xuất bản.

Lưu tất cả hình ảnh trong nội dung bài đăng
Lưu tất cả hình ảnh trong nội dung bài đăng dễ dàng như đánh dấu vào một hộp kiểm.

Lưu hình ảnh dưới dạng thư viện
Bạn có thể lưu hình ảnh trong trang đích dưới dạng thư viện và cung cấp mẫu cho mỗi hình ảnh để phù hợp với thư viện thư viện mà bạn sử dụng trên giao diện người dùng. Bạn cũng có thể lưu hình ảnh dưới dạng thư viện WooCommerce chỉ bằng cách chọn một hộp kiểm.

Bất kỳ dữ liệu nào dưới dạng mã ngắn
Lấy bất kỳ thứ gì từ trang đích dưới dạng mã ngắn và sử dụng các mã ngắn trong các mẫu của plugin để đặt bất kỳ dữ liệu nào ở bất kỳ đâu bạn muốn.

Proxy
Sử dụng proxy hoặc các proxy để lấy nội dung từ các trang web mà IP của bạn không có quyền truy cập.

Cookie
Đính kèm cookie, chẳng hạn như cookie phiên, vào mỗi yêu cầu. Ví dụ: bằng cách này, bạn có thể thu thập dữ liệu trang web mục tiêu như thể bạn đã đăng nhập.

Thu thập thông tin bao nhiêu bài đăng bạn muốn
Bạn có thể đặt số lần các sự kiện CRON thu thập thông tin bài đăng hoặc thu thập URL sẽ chạy. Bằng cách này, bạn có thể lưu 100 bài viết mỗi phút. Chỉ cần cẩn thận và xem xét công suất máy chủ của bạn.

Thông báo qua email
Đặt bộ chọn CSS có giá trị không được để trống cho các trang danh mục và bài đăng. Khi một giá trị trống được tìm thấy bằng cách sử dụng các bộ chọn đó, bạn có thể nhận được thông báo qua email.

Nhận dữ liệu từ JSON
Khi bạn bật phân tích cú pháp JSON cho bộ chọn CSS, bạn có thể lấy các giá trị từ JSON một cách dễ dàng.

Các thao tác HTML nâng cao
Tìm thay thế trong HTML phản hồi, tìm và thay thế trong các thuộc tính phần tử, trao đổi các thuộc tính phần tử, xóa các thuộc tính phần tử, thao tác HTML của một phần tử, xóa các phần tử HTML…

Dịch tự động
Sử dụng trí thông minh nhân tạo của Google Cloud Translation API, Microsoft Translator Text API, Yandex Translate API hoặc Amazon Translate API để tự động dịch các bài đăng. Lưu ý rằng đây là những dịch vụ trả phí. Họ thường cung cấp dịch vụ miễn phí trong một khoảng thời gian giới hạn. Bạn có thể xem các trang định giá của họ để tìm hiểu thêm.

Tự động quay vòng (Automatic spinning)
Sử dụng tính năng quay vòng để tự động viết lại nội dung của các bài đăng được thu thập thông tin nhằm cải thiện việc tối ưu hóa công cụ tìm kiếm. Plugin hiện đang triển khai API Spin Rewriter và API Turkce Spin, là các dịch vụ trả phí. Bạn có thể truy cập trang web của họ để tìm hiểu chi tiết về giá cả.

Bài trùng lặp kiểm tra
Kiểm tra bài trùng lặp bằng URL, tiêu đề bài và / hoặc nội dung bài. Nếu bạn đang sử dụng WooCommerce, các sản phẩm có SKU đã tồn tại được coi là trùng lặp và chúng sẽ không được thêm vào trang web của bạn.

Bài viết đã lên lịch
Bạn có thể thêm / bớt số phút vào / từ ngày đăng bài. Bằng cách này, bạn có thể lên lịch xuất bản bài đăng.

Lưu các sản phẩm WooCommerce
Tiết kiệm giá, hàng tồn kho, vận chuyển, thuộc tính và các tùy chọn nâng cao. Bạn có thể lưu sản phẩm dưới dạng đơn giản hoặc sản phẩm bên ngoài. Bạn cũng có thể đặt các tùy chọn tệp có thể tải xuống và xác định sản phẩm là ảo. Các tùy chọn có sẵn cho các phiên bản WooCommerce lớn hơn hoặc bằng 3.3.

Hộp tùy chọn
Bạn có quyền kiểm soát! Xác định nhiều tùy chọn cho các giá trị được tìm thấy bởi bộ chọn CSS. Các tùy chọn bao gồm cài đặt tìm kiếm thay thế, tính toán, mẫu và phân tích cú pháp JSON. Bạn cũng có thể dễ dàng nhập / xuất các tùy chọn được xác định trong các hộp tùy chọn.

Xử lý các tập tin như một người chuyên nghiệp
Đổi tên, sao chép và di chuyển các tập tin đã lưu một cách dễ dàng. Bạn cũng có thể xác định tiêu đề, mô tả, chú thích và văn bản thay thế cho các tệp phương tiện đã lưu bằng cách sử dụng các mẫu mà bạn có thể sử dụng bất kỳ mã ngắn nào. Cũng có thể đặt tên ngẫu nhiên cho các tệp đã lưu.

Xử lý iframe và tập lệnh như một
WordPress chuyên nghiệp không cho phép hiển thị iframe và tập lệnh vì chúng gây ra rủi ro bảo mật. Bạn có thể biến các phần tử iframe và script HTML thành các mã ngắn chỉ bằng cách chọn một hộp kiểm. Mã ngắn sẽ hiển thị iframe và tập lệnh từ các miền nguồn được phép do bạn xác định.

Lưu nhanh
Với nút lưu nhanh, bạn có thể lưu các cài đặt nhanh hơn nhiều. Không cần đợi trang tải lại

Biểu thức chính quy
Xác định các biểu thức chính quy trong các tùy chọn tìm-thay thế để tìm-thay thế bất kỳ thứ gì. Bạn cũng có thể sử dụng dấu phân cách và từ bổ nghĩa để đối sánh chính xác hơn.

Lưu thuộc tính “srcset” (Save “srcset” attributes)
Khi có các kích thước thay thế của hình ảnh đã lưu, plugin sẽ gán chúng vào thuộc tính srcset của các phần tử img để các trang của bạn sẽ tải nhanh hơn ở các kích thước màn hình khác nhau.

Lưu các thuộc tính “alt” và “title”
Khi bạn lưu hình ảnh, các thuộc tính “alt” và “title” của chúng sẽ được tự động truy xuất từ ​​trang đích và được gán cho phương tiện đã lưu. Bạn cũng có thể xác định các mẫu để chúng áp dụng các chiến lược SEO của bạn.

Cảnh báo
Tìm hiểu khi có sự cố. Plugin sẽ hiển thị cho bạn thông tin chi tiết về lỗi để bạn có thể khắc phục ngay lập tức.

Xử lý các vấn đề về mã hóa ký tự
Plugin có thể xử lý các mã hóa ký tự khác nhau, ngay cả khi trang đích chứa các mã hóa hỗn hợp. Bạn có thể chuyển đổi mã hóa bằng cách chọn một hộp kiểm.

Điều hướng giữa các cài đặt dễ dàng
Sửa điều hướng lên đầu! Plugin lưu trữ vị trí của bạn trước khi chuyển sang tab mới và khôi phục vị trí trước đó của bạn khi bạn kích hoạt lại tab đó. Không còn bị lạc giữa các cài đặt

Công cụ thu thập thông tin thủ công
Với công cụ thu thập thông tin thủ công, hãy lưu nhiều bài đăng bằng cách nhập URL của chúng. Bạn cũng có thể nhập URL danh mục để công cụ có thể lấy URL của bài đăng từ đó. Hơn nữa, bạn có thể thiết lập nó để thu thập thông tin nhiều bài đăng cùng một lúc.

Thêm URL vào cơ sở dữ liệu
Plugin thu thập URL tự động. Tuy nhiên, nếu bạn muốn nó chỉ thu thập thông tin các URL nhất định, bạn có thể thêm chúng vào cơ sở dữ liệu theo cách thủ công bằng công cụ thu thập thông tin thủ công. Bằng cách này, các URL được chỉ định sẽ tự động được thu thập thông tin bằng cách sử dụng các tùy chọn lập lịch của bạn.

Bật / tắt tính năng thu thập thông tin tự động cho một trang web cụ thể
Bạn có thể bật hoặc tắt tính năng thu thập thông tin tự động cho từng trang web riêng lẻ.

Nhập / xuất
Bạn có thể nhập và xuất cài đặt trang một cách dễ dàng. Chỉ cần sao chép và dán mã được tạo bởi plugin.

Không giới hạn
Thêm các trang web không giới hạn và kích hoạt bao nhiêu trang bạn muốn.

Bảng điều khiển chi tiết
Xem những gì đang diễn ra trong nền. Các trang web đang hoạt động, số lượng bài đăng được thu thập thông tin, số lượng bài đăng được cập nhật, bài đăng được thu thập thông tin gần đây nhất và cập nhật, URL được thêm lần cuối, sự kiện CRON lần cuối và tiếp theo, các bài đăng và URL hiện đang được lưu…

Nhận cập nhật từ bảng điều khiển quản trị của bạn
Bạn có thể cập nhật plugin chỉ bằng một cú nhấp chuột bất cứ khi nào bản cập nhật sẵn sàng. Chỉ cần truy cập trang cập nhật của bạn trong bảng điều khiển quản trị của bạn.

Sử dụng PHP an toàn nhất.
Plugin hỗ trợ các phiên bản PHP mới nhất.

Sử dụng các trình duyệt hiện đại nhất
. Plugin hỗ trợ Chrome, Firefox, Safari, Opera và Edge.

Hướng dẫn tương tác Hướng dẫn
tương tác chỉ cho bạn cách định cấu hình cài đặt để đạt được những điều nhất định, từng bước, như một tài liệu sống. Bạn có thể bắt đầu các hướng dẫn này bất cứ khi nào bạn muốn. Bạn thậm chí có thể bắt đầu chúng từ một bước cụ thể.

Sẵn sàng dịch
Bạn có thể dịch plugin sang ngôn ngữ của mình bằng Poedit

Bộ lọc
Với bộ lọc, bạn có thể thực hiện mọi việc một cách có điều kiện. Ví dụ: bạn có thể tăng giá sản phẩm nếu một trong các giá trị thuộc tính của sản phẩm đó chứa một từ cụ thể. Bộ lọc chứa nhiều lệnh hành động. Xem các lệnh trong tài liệu.

Tự động spin nội dung với Auto Spinner

Auto Spinner là 1 plugin mình cũng hay dùng cho khá nhiều dự án của netweb.vn, nó là 1 plugin rất là hữu ích cho các bạn nếu các bạn dùng wordpress, các bạn có thể tham khảo video hướng dẫn chi tiết ở link bên dưới nhé!

Bài viết mới cập nhập

  • Hướng dẫn Plugin floating contact

    Hướng dẫn Plugin floating contact

    10 tháng trước, 338 Lượt xem

    Netweb xin hướng dẫn cách quản lý Plugin floating contact các bạn nhớ làm theo kỹ tường bước để plugin hoạt động Tính năng: Hiển…

  • Backup Yandex Mail

    Backup Yandex Mail

    12 tháng trước, 229 Lượt xem

    Khác với dịch vụ email theo tên của microsoft và google với chi phí đắt đỏ tầm 1tr/năm/1user, vì thế nên netweb khuyên dùng dịch…

Bình luận trên facebook netweb.vn

Đam mê thiết kế web, kinh nghiệm 9 năm trong nghề thiết kế website, đang thiết kế web dạo tại netweb.vn, Callme: 08.9898.2526 (Mr Hải)