Cách lấy toàn bộ dữ liệu bài viết của một blog bất kỳ và cách ngăn chặn
Dữ liệu hay data chính là những bài viết, những trang trong blog. Chúng ta có thể lấy được dữ liệu đó là do 1 tính năng mà blogspot cung cấp – RSS – ATOM – Nguồn cấp dữ liệu bài đăng.
Một số người lấy dữ liệu của chính blog của họ để đăng lên site vệ tinh, cũng có một số lười viết bài nên đi ăn cắp dữ liệu của blog khác. Làm sao mà họ làm được điều đó?
Ở bài viết này mình sẽ hướng dẫn các bạn cách lấy toàn bộ dữ liệu bài viết của một blog bất kỳ và cách ngăn chặn người khác lấy dữ liệu của blog mình.
HƯỚNG DẪN THỰC HIỆN
1. CÁCH LẤY DỮ LIỆU BÀI VIẾT CỦA BLOG BẤT KỲ
<script style=”text/javascript”>
function showpostcount(json) {
document.write(‘<center>Tổng số bài: <b>’ + parseInt(json.feed.openSearch$totalResults.$t,10)
+ ‘</b></center>’);}</script>
<script src=”http://bloglaydulieu.blogspot.com/feeds/posts/default?alt=json-in-script&callback=showpostcount”></script>
Nhớ thay bloglaydulieu.blogspot.com bằng địa chỉ blog mà bạn cần lấy dữ liệu.
Bước 2: Lấy dữ liệu về máy
Copy đường link dưới:
http://bloglaydulieu.blogspot.com/atom.xml?redirect=false&start-index=X&max-results=Y
Trong đó:
bloglaydulieu.blogspot.com : là đường link blog mà bạn muốn lấy dữ liệu
X: Bài bắt đầu lấy (Lấy từ bài đầu tiên thì X là 1)
Y: Tổng số bài sẽ lấy tính từ X (Tổng số bài không vượt quá 500)
Ví dụ: Blog muốn lấy dữ liệu có 200 bài viết thì đường link trên sẽ là:
http://bloglaydulieu.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=200
Để tải dữ liệu về máy bạn có 2 cách:
CÁCH 1: SỬ DỤNG TRÌNH DUYỆT
Paste đường link đó vào trình duyệt. Chờ load xong thì click chuột phải chọn “Lưu thành“. Ta sẽ lưu được 1 file .xml
CÁCH 2: SỬ DỤNG INTERNET DOWNLOAD MANAGER (IDM)
2. CÁCH NGĂN CHẶN NGƯỜI KHÁC LẤY DỮ LIỆU BLOG CỦA MÌNH
– Ấn nút “Chèn dấu ngắt nhảy” trên thanh bài viết