Thứ Bảy, 5 tháng 4, 2014

Làm thế nào Dropbox biết bạn đang chia sẻ một tập tin vi phạm bản quyền?

Dropbox.

Vào một ngày cuối tháng 3, một người dùng Twitter cho biết rằng anh không thể chia sẻ được một tập tin thông qua Dropbox vì vi phạm luật bảo vệ bản quyền nội dung số (DMCA). Dòng tweet của người này đã lan đi nhanh chóng và chỉ đến trưa ngày hôm sau nó đã nhận được hơn 3 nghìn lượt đăng lại. Vậy điều gì đang xảy ra? Dropbox đang làm gì với tài khoản người dùng mà hãng có thể ngăn chặn việc chia sẻ file một cách bất ngờ như thế? Liệu họ có "quậy phá", "bới móc" thư mục của người dùng để tìm ra những tập tin vi phạm bản quyền hay không?

Câu trả lời là không. Và hệ thống lọc tập tin sao chép lậu này cũng không phải là mới mẻ gì cả. Nó đã đi vào hoạt động được nhiều năm nhưng không xuất đầu lộ diện một cách rõ ràng, đúng với cách mà một hệ thống ngăn chặn vi phạm pháp luật nên thực thi. Nó cho phép Dropbox chặn việc chia sẻ một số tập tin nhất định từ người này sang người khác (một động thái giúp hãng không bị các cơ quan chính phủ "rờ gáy"). Trước khi chúng ta tìm hiểu sâu hơn về vấn đề này, có một vài thứ cần nói rõ:
  • Một số người nói rằng nhân viên Dropbox đang lục tung các tập tin, thư mục của người dùng để tìm và chặn những tập tin vi phạm luật DMCA. Nhưng thật chất không phải như thế. Chỉ khi nào người dùng thực hiện việc chia sẻ (từ người này sang người khác, hoặc đem chia sẻ link lên Internet) thì hệ thống kiểm tra DMCA mới bắt đầu phát huy tác dụng của mình.
  • Tập tin vi phạm bản quyền không hề bị xóa khỏi tài khoản Dropbox của người dùng - Dropbox chỉ chặn việc chia sẻ mà thôi.
  • Người đưa dòng tweet nói trên cho biết anh ấy không hề nghĩ rằng Dropbox đang làm điều gì xấu xa. Anh chỉ thấy tình hình khá thú vị và muốn chia sẻ cho mọi người biết, và cũng không có ý định chỉ trích Dropbox.
Hệ thống này hoạt động như thế nào?

Trong thế giới điện toán ngày nay có một thứ được gọi là "hashing". Thực chất khái niệm này rất phổ biến đối với những người làm trong lĩnh vực IT và cũng xuất hiện ở rất nhiều nơi, từ việc cho phép các trang web kiểm tra password của bạn mà không cần lưu lại, cho đến việc xác nhận rằng một tập tin không hề bị thay đổi nội dung trong quá trình nó được sao chép từ chỗ này sang chỗ kia. Tính năng hash thực chất chỉ là một thuận toán dùng để bóc tách các số định danh riêng ra khỏi một tập tin đồ sộ.

Các thuận toán Hash sử dụng một chuỗi kí tự để hoạt động. Chuỗi hash của file A có thể là "4f2900f2fdfaf", trong khi hash của file B có dạng "dba7b12a19fe9". Tất nhiên là hash của tập tin lưu trên Dropbox sẽ dài hơn thế rất rất nhiều, nhưng nói chung ý tưởng là như thế.

Bằng việc chạy thuật toán hash hai lần trên hai file giống hệt nhau, chúng ta sẽ có hai chuỗi hash kết quả giống nhau. Nhưng nếu trong tập tin có một thứ gì đó bị thay đổi thì chuỗi hash của tập tin này sẽ hoàn toàn khác đi. Ví dụ, file A ở trên nếu chỉ bị thay đổi một vài bit thôi cũng đủ để biến hash của nó trở thành "e3c277c771c8e".

Hash_thuat_toan.

Chuỗi số định danh loằng ngoằn này có thể được dùng để cho chúng ta biết rằng liệu tập tin đó có giống một tập tin tham chiếu hay không. Nếu nó bị thay đổi thì hash sẽ đổi theo, tức là tập tin đang xét không giống với tập tin gốc. Tuy nhiên, hash chỉ mang tính một chiều: nó chỉ nói được rằng hai file có giống nhau hay không chứ không thể giúp biết được đâu là tập tin gốc (trừ khi con người hoặc phần mềm biết trước những thông tin này).

Bạn có thể tưởng tượng hash giống như là dấu vân tay. Dấu vân của mỗi người là duy nhất, nhưng nếu chỉ có dấu vân tay không thì không xác định được bạn là ai, trừ khi có thêm dữ liệu từ một cơ sở dữ liệu chứa sẵn thông tin cá nhân cảu bạn. Cũng như thế, hệ thống kiểm tra DMCA của Dropbox không thể nói tập tin đó là gì, trừ khi nó giống hoàn toàn với tập tin được DMCA đưa ra trong "danh sách đen".

Khi bạn tải một file nào đó lên Dropbox, có hai thứ xảy ra: chuỗi hash cho file sẽ được tạo thành, rồi sau đó file được mã hóa để tránh việc truy cập trái phép từ những người bên ngoài (ví dụ như hacker hay nhân viên Dropbox chẳng hạn). Nói thêm về chuyện mã hóa thì chìa khóa để giải mã vẫn nằm trong tay Dropbox nên về lý thuyết thì họ có thể xem tập tin của bạn bất kì khi nào, nhưng trong thực tế thì điều này chỉ diễn ra nếu Dropbox được tòa án yêu cầu mà thôi. Và ngoài Dropbox thì hầu hết các dịch vụ lưu trữ online khác cũng phải tuân theo quy định này nếu có lệnh từ cơ quan có thẩm quyền.

Quay trở lại với hệ thống DCMA, bên phía cơ quan hành pháp sẽ đưa cho Dropbox nội dung mà họ cần ngăn chặn. Sau khi nhân viên của Dropbox xác nhận xong thì họ sẽ thêm chuỗi hash của file này vào một danh sách đen khổng lồ bao gồm các tập tin không được phép chia sẻ. Khi bạn tạo một đường link Dropbox dẫn đến các file của mình, hệ thống sẽ kiểm tra hash thuộc file của bạn với danh sách.

Nếu tập tin của bạn hoàn toàn giống với tập tin được DCMA đưa ra, Dropbox sẽ không cho phép bạn tiếp tục tiến hành việc chia sẻ. Nhưng nếu đó là một thứ khác - ví dụ như một tập tin lạ, một tập tin mới hay thậm chí là bản chỉnh sửa của cùng một file gốc từ DCMA - thì hệ thống sẽ chẳng biết nó là gì và cứ thế mà cho phép tiếp tục.

Dropbox_DCMA.
Nội dung thông báo về tập tin bị chặn chia sẻ?

Nói cách khác, theo những gì Dropbox công bố, họ sẽ không xâm phạm vào các tập tin cá nhân của chúng ta, ngay cả khi bạn có chứa cả trăm nghìn tập tin lậu trên đó. Không có ai (hoặc robot) nào nghe hết cả thư việc MP3 mà bạn download "chùa" rồi đưa lên Dropbox, cũng không ai đọc những quyển sách bạn tải từ một nguồn torrent nào đó. Dropbox chỉ có một danh sách dài những thứ cần chặn và một khi những tập tin đó được đưa ra thế giới bên ngoài thì hãng sẽ nhanh chóng bắt nó.

Để kết lại, đây là lời bình luận của Dropbox về dòng tweet nói trên:

"Đã có nhiều lời nói về cách chúng tôi xử lí những vấn đề liên quan đến bản quyền. Chúng tôi đôi khi nhận được thông báo từ DCMA để xóa một số đường link vì vấn đề pháp lý. Khi nhận được chúng, Dropbox sẽ xử lí theo luật pháp và vô hiệu hóa link. Chúng tôi cũng có một hệ thống tự động giúp ngăn chặn việc những người dùng khác chia sẻ lại tập tin đó bằng Dropbox. Hệ thống này sử dụng các chuỗi hash của tập tin. Chúng tôi không xem nội dung chứa trong thư mục riêng của bạn và rất tận tâm trong việc giữa cho những thứ của bạn an toàn".

Nguồn: TechCrunch

Cẩn thận vụ bản quyền nhé các bác. Dạo này các trang web trên mạng làm căng vụ này lắm đó