Thứ Ba, 11 tháng 3, 2014

Wikipedia và cuộc chiến chống những kẻ phá hoại nội dung bài viết

Wikipedia_chong_pha_hoai_500px.

Wikipedia hiện đang là một trong những trang từ điển bách khoa được nhiều người truy cập nhất thế giới, và vì bản chất "mở" nên ai cũng có thể tham gia biên tập, tạo mới hoặc chỉnh sửa nội dung trên website này. Vậy đã bao giờ bạn tự hỏi rằng vì sao có rất nhiều người cùng sửa chỗ này, chỉnh chỗ kia, xóa chỗ nọ trên Wikipedia nhưng chúng ta ít, thậm chí là không bao giờ, thấy những thông tin "tạp nham" xuất hiện đầy rẫy hay không? Wikipedia có cả một bộ máy phức tạp để kiểm soát việc này.

Tính đến thời điểm hiện tại thì Wikipedia đã có hơn 700 triệu lượt chỉnh sửa, và như đã nói ở trên thì không phải lần chỉnh sửa nào cũng có ý nghĩa. Đôi lúc có một số người nào đó quấy rối, ví dụ như khi trang truyện tranh The Oatmeal khuyến khích đọc giả của mình chèn link dẫn đến trang mô tả Thomas Edison trong mục nói về từ "douchebag" (tạm dịch là kẻ khốn). 4 triệu bài viết trên Wikipedia hằng ngày phải chịu hàng nghìn lượt biên tập kiểu như thế từ những kẻ thích đi gây hấn, các "anh hùng bàn phím" hoặc và thậm chí là cả tội phạm nữa.

Nhưng ít có cơ may nào bạn sẽ được nhìn thấy chúng. Chỉ vài phút, thậm chí là vài giây sau khi lượt biên tập được lưu lại, những nội dung không chính xác sẽ bị xóa bỏ và chúng chỉ còn xuất hiện trong lịch sử edit của bài viết mà thôi. Những tác nhân đứng sau việc kiểm soát chất lượng cho Wikipedia chính là những robot tự động cùng với đội ngũ "cyborg" - những tình nguyện viên được hỗ trợ bởi phần mềm chuyên dụng để đi "tuần tra" những lượt chỉnh sửa gần đây. Thật sự mà nói thì Wikipedia cũng giống như một chiến trường mà không bên nào nhường bên nào.

Wikipedia_chong_pha_hoai_1.

Sự trỗi dậy của Wikipedia và các bot

Wikipedia được chính thức ra mắt lần đầu tiên vào năm 2001 từ trang web tiền nhiệm là Nupedia. Khi Nupedia gặp khó khăn, hai nhà sáng lập là Jimmy Wales và Larry Sanger đã chuyển hướng sang thiết kế một từ điển bách khoa mở và kêu gọi sự góp sức từ cộng đồng. Chỉ trong vòng 4 năm, trang Wikipedia tiếng Anh đã có được hơn 750.000 bài viết với đủ các thể loại khác nhau. Kể từ đó, website này không còn là một phần mềm thử nghiệm nữa mà đã thực sự trở nên phổ biến.

Việc phát triển mạnh mẽ như thế đồng nghĩa với chuyện Wikipedia đã thu hút một số lượng lớn những người dùng mới khá phức tạp: một số thích tự quảng bá bản thân, số khác chỉ là những người biên tập tay mơ, chưa kể đến những kẻ thích đi phá hoại người khác. Vào mùa thu năm 2006, Jimmy Wales đã có một bài thuyết trình để kêu gọi thành viên Wikipedia hãy tập trung vào chất lượng bài viết chứ không phải số lượng. Cộng đồng rõ ràng cũng có phản ứng lại khi mà trong vài tháng sau đó, tỉ lệ những bài viết mới xuất hiện giảm đi nhưng các bài viết không đáng tin cậy lại tăng lên. Wikipedia khi đó cũng đang tìm cách để tự quản lý bản thân mình.

Cũng trong khoảng thời gian này, Wikipedia phải đối mặt với vấn đề đầu tiên liên quan đến việc chỉnh sửa có mục đích xấu. Một ai đó đã xóa trắng một số bài viết sẵn có rồi thay bằng hình ảnh của Squidward Tentacles, một nhân vật trong phim hoạt hình SpongeBob Squarepants. Bằng cách sử dụng nhiều proxy kết hợp với nhiều tài khoản khác nhau, nhân vật bí ẩn này đã làm lao đao cả cộng đồng Wikipedian bằng bức email: "Tôi là một lập trình viên máy tính và tôi biết tất cả mọi dòng lệnh trên thế giới". Người đó cũng nói rằng anh/cô ta là một biên tập viên đang nổi giận vì bị buộc tội là "phá hoại ngầm". Wikipedia đã phải giải quyết vấn đề bằng nhân lực của mình, và đến giờ thì thỉnh thoảng việc phá hoại này vẫn còn diễn ra định kì.

Để chuẩn bị tốt hơn cho những sự kiện tương tự, bốn tình nguyện viên đã xây dựng một thứ gọi là AntiVandalBot. Như cái tên đã gợi ý, đây là nỗ lực đầu tiên của Wikipedia nhằm tự động hóa việc chống lại những lượt biên tập xấu. Bằng cách sử dụng những quy luật đơn giản, phần mềm này giám sát những đợt biên tập gần đây và nếu cần thì sẽ can thiệp. Các bài chỉnh sửa nào mang tính phá hoại thì sẽ bị gạt bỏ một cách tự động, còn nếu gặp những tình huống khó hơn thì dữ liệu sẽ được chuyển tiếp qua một ứng dụng khác là VandalProof để chờ sự can thiệp của con người. So với bây giờ thì AntiVandalBot quá "thô sơ", nhưng ít ra nó đã giúp các biên tập viên chính cống tiết kiệm được rất nhiều thời gian trong nỗ lực xây dựng một Wikipedia trong sạch.

Nó thậm chí cũng đã cứu trang web này. Có một nghiên cứu đã tìm hiểu về xác suất Wikipedia hiển thị những bài viết bị cố tình làm hỏng xét trên mỗi lượt truy cập của người dùng. Mặc dù xác suất rất thấp, chỉ cỡ vài phần nghìn, nhưng chỉ số này lại tăng lên trong vòng chỉ 3 năm. Nếu không có sự ra đời của những công cụ trên, xu hướng đó có thể tiếp tục tiếp diễn và khi đó đội ngũ biên tập của Wiki sẽ phải nhức đầu giải quyết một lượng lớn bài viết bị chỉnh sửa theo hướng tiêu cực. Aaron Halfaker, một nghiên cứu sinh tiến sĩ đang làm việc cho Wikimedia Foundation chia sẻ: "Khi tôi nhìn vào những công cụ này, tôi thật sự nghĩ rằng chúng đã cứu Wikipedia khỏi một cái kết buồn trong tay của một người lạ mặt nào đó". Đến tháng 6/2006, các phần mềm tự động hóa với chức năng như thế đã được sử dụng rộng rãi hơn.

Hồi năm 2007, Jacobi Carter, lúc đó còn đang là học sinh trung học, đã xem qua MartinBot - một thế hệ mới của AntiVandalBot. Anh nhận thấy rằng có quá nhiều bài viết tốt bị đưa qua hệ thống để chuyển thành phiên bản bị "hỏng". Song song đó, một lượng lớn bài viết xấu cũng lưu chuyển qua phần mềm này. Thế là Carter quyết định sẽ cải thiện tình hình và viết ra một chú "bot" (công cụ tự động) dùng để chấm điểm những lượt biên tập dựa vào nhiều loại thông tin khác nhau: các lời lẽ báng bổ, tính chính xác về mặt văn phạm, các lời công kích cá nhân và tương tự như thế. Ngoài ra, Carter cũng nhận thấy rằng những người phá hoại thì hay xóa một lượng lớn thông tin hoặc để trang trống hoàn toàn, trong khi các biên tập viên lâu năm thì khó có khả năng trở thành những kẻ chống phá.

Kết hợp những quy luật này lại, phần mềm Cluebot của anh đã tỏ ra rất có hiệu quả. Trong vòng 2 tháng sau khi đi vào hoạt động, nó đã giúp Wikipedia sửa lại 21.000 bài viết bị phá. Công cụ này tiếp tục được duy trì liên tục trong ba năm liền sau đó.

Đến cuối năm 2010, Carter đã sẵn sàng để viết ra thế hệ mới của Cluebot và anh gọi nó là Cluebot NG. Những nguyên lý duyệt nội dung đã chứng minh được khả năng của mình trong đời Cluebot đầu tiên và đã loại bỏ hầu hết những đợt phá hoại. Nhưng cũng những quy luật này lại chỉ có thể "bắt" được những kẻ phá hoại rõ ràng mà thôi, thế nên thuật toán vẫn cần phải được cải tiến nhiều. Vậy là Carter cùng với người bạn Chris Breneman của mình bắt tay vào công việc.

Wikipedia_chong_pha_hoai_3.

Nếu như chú "bot" đầu tiên sử dụng các bộ quy tắc được định sẵn thì Cluebot NG lại sử dụng machine learning (khả năng tự học hỏi của máy tính). Điều đó có nghĩa là thay vì lập trình viên đẩy một loạt quy tắc và ra lệnh cho phần mềm thực thi chúng, Carter và Breneman sẽ cung cấp một danh sách dài những bài edit (có cả lượt chỉnh sửa mang tính xây dựng lẫn các lượt phá hoại). Đây cũng là quy trình được các hãng lớn dùng để chống và lọc email rác khỏi hộp thư của người dùng.

Điểm mấy chốt dẫn đến sự thành công của machine learning là phải có số lượng dữ liệu đủ lớn thì máy tính mới có thể "học" một cách hiệu quả. May mắn thay, một cuộc thi chống phá hoại mới được Wikipedia tổ chức đã cung cấp hơn 60.000 lượt edit đã phân loại. Từ nền tảng này, Cluebot NG bắt đầu học, tìm ra những điểm giống, khác giữa các bài viết xấu, tốt cũng như xác định mối quan hệ giữa các dữ liệu với nhau.

Nhằm giúp đỡ cho việc này, Breneman đã sử dụng một mạng lưới trí tuệ nhân tạo mô phỏng lại hoạt động của não người. "Bạn không thể ném một mớ từ tiếng Anh vào mạng nơ-ron và kì vọng nó sẽ đưa ra những điểm giống và khác". Việc xử lí ban đầu là bắt buộc: chuyển thể các ví dụ thành số liệu hoặc những thứ mà máy tính có thể hiểu được. Ngoài ra còn có một kĩ thuật xử lý khác được áp dụng gọi là "sự phân loại Bayesian" để so sánh những từ được biên tập với các từ trong cơ sở dữ liệu. Nếu từ "khoa học" xuất hiện trong một bài viết mang tính xây dựng thì xác suất xuất hiện của từ "khoa học" trong các bài viết xấu cũng khá cao.

Việc xử lý trước như thế đã gom hơn 300 dữ liệu đầu vào rồi xuất ra một con số duy nhất ở đầu ra: chính là xác suất xuất hiện của một bài viết phá hoại. Cluebot sau đó áp dụng kết quả này để lọc trước khi quyết định sẽ nên làm gì tiếp theo. Vậy là trong một thời gian dài, Cluebot NG lại tiếp tục tỏ ra hiệu quả, có thể kiểm soát được và khả năng thích nghi tương đối cao.

Một trong những lo ngại lớn nhất của cộng đồng Wikipedia đó là những bài viết tốt lại bị liệt kê vào danh sách các bài phá hoại, và điều này sẽ khiến các biên tập viên cảm thấy không hài lòng. Tất nhiên, vì là một hệ thống máy tính tự động nên Cluebot "vẫn bị sai sót", tuy nhiên người quản trị có thể điều chỉnh được tỉ lệ sai sót này và kết quả "tốt hơn bất kì con bot nào đi trước".

Cũng chính vì những lý do đó mà Cluebot hoạt động lên tục 24/7 không ngừng nghỉ. Nó có thể thực thi việc kiểm tra hơn 9.000 bài chỉnh sửa mỗi phút mặc dù nó chưa bao giờ phải vận hành hết công suất như thế. Từ năm 2010 đến nay, phần mềm này đã chăm chỉ loại bỏ hàng nghìn lượt biên tập xấu hằng ngày, và tính đến năm 2013 thì con số bài viết được kiểm tra bởi Cluebot NG đã đạt đến mức 2 triệu. Một nghiên cứu đã chỉ ra rằng nếu như Cluebot không hoạt động và thay vào đó là đưa con người vào thì việc loại bỏ những nội dung xấu sẽ mất thời gian gấp đôi.

Thực ra thì đây cũng chính là mục tiêu mà người ta làm ra Cluebot cũng như tất cả mọi loại bot khác trên thế giới công nghệ. Chúng được sinh ra là để làm một việc gì đó hiệu quả hơn con người. Nhưng song song với những lợi ích mà Cluebot mang lại thì vẫn có một số người không ủng hộ việc áp dụng phần mềm tự động trong việc loại bỏ các lượt biên tập xấu. Họ tranh luận rằng nội dung có xấu hay không là do vấn đề chủ quan của con người chứ không có thể chỉ áp dụng thuần túy những công thức toán học. Một người có nickname beakerMeep từng viết: "(Việc sử dụng) các bot ở Wikipedia là sai trái, và nếu họ tiếp tục cho phép nó thì họ đang hi sinh tầm nhìn về sự đóng góp của cộng đồng để thay vào đó là việc sử dụng các giải pháp công nghệ". Nhưng nếu nhìn từ góc nhìn thực tế, nếu không có Cluebot thì ngày nay Wikipedia thực sự trở thành một mớ hỗn độn và không thể xài được.

Tất nhiên, cũng còn đó những hoạt động phá hoại mà chỉ con người mới bắt được.

Wikipedia_chong_pha_hoai_4.

Hành trình săn những kẻ xảo quyệt: người và máy

Vào sáng ngày 7/2/2014, một người dùng Wikipedia nặc danh (chỉ để lộ địa chỉ IP) đã thay đổi trang thông tin về Date Night, một bộ phim của Steve Carell và Tina Fey. Ở cuối danh sách diễn viên, người bí ẩn này đã thêm vào một dòng như sau: "Brittany Taya làm chỉ đạo nghệ thuật". Vài phút sau, cũng địa chỉ IP này thêm vào dòng "Rachel McAdams đóng vai Natasha Henstridge" trong bài viết về phim Date Movie. Tương tự như thế, địa chỉ IP đó đã thay đổi nội dung của trên 12 bài viết khác nhau bằng những mẫu thông tin nhỏ và ít người để ý. Chưa kể đến việc hàng tá những lượt chỉnh sửa như thế đã diễn ra nhiều tháng trời trong một dải IP nhất định. Mọi lần đều như một: thêm vào danh sách diễn viên những thông tin sai lệch.

Cluebot không thể nhận ra việc chống phá xảo quyệt như thế. Thay vào đó, một người phải đảm trách nhiệm vụ này và anh ấy từ lâu đã là một "tuần tra viên" của Wikipedia với nickname SeaPhoto. Người này đã thực hiện hơn 55.000 lượt chỉnh sửa, và phần lớn trong số này là để sửa những bài viết bị thay đổi nội dung sai lệch. Anh thường thực hiện công việc của mình trong lúc xem TV, một mắt thì theo dõi chương trình yêu thích của mình, mắt còn lại thì nhìn vào danh sách những thay đổi gần đây đang cuộn trên màn hình máy tính bởi việc "tuần tra" bình thường không quá vất vả. Chỉ khi nào đối mặt với những lượt chỉnh sửa như đã nói ở trên thì mới cần tập trung. SeaPhoto từng đùa rằng anh không làm việc khi đang xem Breaking Bad hay Game of Thrones.

SeaPhoto sử dụng một chương trình tên là Huggle, một trong nhiều add-on cung cấp giao diện đơn giản nhằm kiểm tra các lượt biên tập gần đây trên Wikipedia. Nhờ sự hỗ trợ này mà chúng ta có thể xem SeaPhoto như là một "cyborg" - không hẳn là một chú robot hoàn toàn tự động hóa, nhưng cũng không phải là một người thực hiện công việc hoàn toàn thủ công. Nói về cơ duyên với Wikipedia, anh cho biết rằng lần đầu tiên anh truy cập vào từ điển bách khoa này là vào năm 2006 khi anh muốn tìm thông tin về những chiếc tàu mô hình - một sở thích của anh. Wikipedia lúc đó không có thông tin về chủ đề này, và anh đã phải vất vả học những quy tắc khi viết bài. "Bạn phải chấp nhận nó, còn không thì đừng tiếp tục với dự án này nữa".

Bên cạnh việc chỉnh sửa nội dung, Wikipedia còn là một nơi để các thành viên giao tiếp với nhau. Wikipedia vừa là một sản phẩm, vừa là một tập hợp những quy trình xã hội với hàng triệu lượt tương tác của các thành viên, và hầu hết những người đó đều chưa từng gặp nhau ngoài đời. Nếu không có "đám đông" này, Wikipedia sẽ nhanh chóng suy tàn. Sự tham gia của người dùng vào Wikipedia đạt đỉnh cao nhất là hồi năm 2007 và tốc độ gia tăng biên tập viên mới đang chậm lại. Có nhiều lời giải thích cho việc này, từ giao diện biên tập chưa ngon của Wiki cho đến việc những biên tập viên lâu năm đóng tài khoản của các người dùng mới chưa có kinh nghiệm. Đây cũng là điều mà SeaPhoto rất lo lắng. Việc chạy đua để đấu tranh với các hành động phá hoại rất vui, ngay cả khi bạn bị đánh bại bởi một chú bot, nhưng "bạn cần phải dành một giây để cân nhắc rằng bạn không đang yêu ai đó".

Wikipedia_chong_pha_hoai_2.

Chào mừng người mới

Vậy sự tự động hóa ảnh hưởng như thế nào đến việc tương tác xã hội giữa các Wikipedian? Đó là câu hỏi mà Aaron Halfaker, một nhà nghiên cứu của Wikimedia Foundation, đang đi tìm câu trả lời. Nhìn vào những phần mềm chống phá hoại như Huggle và Cluebot, anh nói: "Tôi thấy một điều tuyệt vời: nó làm cho Wikipedia trở nên dễ kiểm soát". Công cụ này đã thêm một lớp bảo vệ cho quyển từ điển bách khoa mà ai ai cũng có thể nhảy vào chỉnh sửa.

Halfaker cũng đã điều tra xem những biện pháp bảo mật như thế này ảnh hưởng như thế nào đến các thành viên mới tham gia Wikipedia. "Khi bạn xuất hiện bên rìa của một cộng đồng và bạn ở đó để giúp đỡ, bạn sẽ hi vọng rằng ít nhất sẽ có ai đó chào bạn. Những công cụ tự động hiện không được thiết kế để làm điều đó. Chúng được thiết kế nhắm đến hiệu suất. Chúng được thiết kế để làm một công việc cụ thể". Chúng đang chứng tỏ được vai trò của mình trong việc chống lại những bài viết xấu, nhưng không làm gì để chào mừng những người mới tham gia.

Vậy làm thế nào một "người gác cổng" có thể ít gắt gao hơn? Các nhà nghiên cứu lại tiếp tục thử nghiệm. Đầu tiên họ thay đổi lời nhắn mà Cluebot sẽ gửi đến những kẻ phá hoại, và họ phát hiện ra rằng những thông điệp thân thiện thì sẽ dừng các hành động sai trái một cách nhanh hơn. Điều đó cho thấy những thành viên mới rất xem trọng mối tương tác giữa người với người, nhưng vấn đề thực chất còn lớn hơn thế. Thế nên Halfaker bắt đầu phát triển một thứ mà anh gọi là Snuggle nhằm mục tiêu mang lại một môi trường thân thiện hơn.

Snuggle được thiết kế để mang lại một góc nhìn khác về hiện tượng phá hoại. Halfaker lấy ví dụ của một cầu thủ đá bóng người Ai Cập với họ là Homos. Nếu chỉ nhìn riêng thì cái tên của anh này có thể bị liệt vào loại "phá hoại" vì nó là từ viết tắt của homosexual, nghĩa là người đồng giới. Nhưng với một biên tập viên có nhiều kinh nghiệm và kiến thức trong bộ môn thể thao này, cái tên Homos hoàn toàn có ý nghĩa và không gặp vấn đề gì hết. Snuggle xuất hiện để chứng tỏ điều đó, cho thấy nhiều hơn về mặt con người rằng sau những hành vi có nguy cơ là hoạt động phá phách.

Halfaker cũng cố gắng nhận mạnh rằng Wikipedia không chỉ là một chiến trường: đó không chỉ là nơi những gã khổng lồ thô lỗ lao vào chiến đấu với các công cụ chống phá hoại, mà Wikipedia còn là nơi giao tiếp giữa những người lạ với nhau với đầy đủ tất cả tính chất phức tạp của một cộng đồng. Anh nhận thấy rằng không phải ai cũng thích Snuggle bởi nó không phù hợp với ý thức về việc chống phá hoại đã được thiết lập sẵn trong tâm trí của họ cũng như những gì họ muốn làm để giúp đỡ người dùng mới. Con người là con người, họ sở hữu những cách riêng để làm một việc gì đó. Hiện Halfaker đang làm việc với một dự án lớn hơn nhằm cải thiện "sự xã hội hóa của những người mới", trong đó có bao gồm việc đưa ra những cách tốt hơn để những tay mơ cũng như những người chuyên nghiệp tìm được tiếng nói chung.

Nói tóm lại, việc tự động hóa trong Wikipedia vẫn còn rất nhiều việc phải làm, từ công đoạn chống lại những hành vi nhằm mục tiêu phá hoại công sức của mọi người cho đến việc khuyến khích người dùng mới tham gia đóng góp cho quyển từ điển bách khoa này. Và chắc chắn rằng những chú bot và cyborg của Wikipedia sẽ tiếp tục tiến hóa để bảo vệ và phát triển một kho tri thức lớn cho nhân loại.

Nguồn: The Verge