tech

Google Instant Keyword Blacklist

ไม่นานมานี้ Google เพิ่งเปิดตัวบริการเท่ ๆ อย่าง Google Instant ที่แสดงผลลัพธ์การค้นหาทันทีพร้อมกับการพิมพ์คำค้นของเรา

แต่จะเป็นยังไงถ้าเนื้อหา "ไม่พึงประสงค์" อาจโผล่ขึ้นมาขณะที่เราพิมพ์โดยที่เราไม่ได้ตั้งใจ Google เลยแก้ปัญหาด้วยการ "แบน" คำค้นบางอย่างมันซะเลย

นิตยสาร 2600: The Hacker Quarterly (ซึ่งมีที่มาของชื่อที่น่าสนใจ ไว้เขียนคราวหน้า) ได้เปิดให้คนทดลองแล้วส่งคำค้นที่ Google Instant ไม่ยอมแสดงผล แล้วรวบรวมไว้ให้ได้ลองดูกัน

ตัวอย่างนะ (ตรงที่เป็นตัวพิมพ์ใหญ่คือเมื่อกดถึงตัวนั้นแล้ว Google Instant จะหยุดแสดงผล)

  • booB (มันไม่พึงประสงค์ยังไงเนี่ย :P)
  • dick (หากพิมพ์ dick แล้วเว้นวรรคตามด้วยคำอื่น ส่วนมากจะโดนแบนหมด ตะกี้ลองดูเห็น dick cheney ไม่โดน แต่ dick armey โดน)

นอกจากนี้ ในหน้าเว็บเดียวกัน นิตยสาร 2600 ยังได้รวบรวมคำค้นที่ (ถ้าดูจากพวกที่โดนแบนแล้ว) น่าจะโดนแบนเช่นกัน แต่ไม่โดน ไว้อีกด้วย

อย่างไรก็ตาม คำค้นพวกนี้ยังใช้ได้ถ้าเรากดค้นหาตามปกติ ก็อาจจะโอเคถ้าคิดว่า Google Instant มันเร็วมาก กันไว้ก่อนดีกว่า แต่ก็สงสัยว่ามันก็มี SafeSearch อยู่อีกชั้นแล้วนิ

การใช้เว็บไซต์เครือข่ายสังคมช่วยการสืบสวนสอบสวน: ตัวอย่างจากสหรัฐฯ

ช่วงหนึ่งปีที่ผ่านมาเราอาจจะได้เห็นความพยายามในการใช้เว็บไซต์เครือข่ายสังคม (Social Network) จากฝั่งเจ้าหน้าที่รัฐมาบ้างพอสมควร ที่พบได้ทั่วไปคือการใช้เพื่อการประชาสัมพันธ์ ตัวอย่างเด่น ๆ ก็คงหนีไม่พ้นทั้งหน้าเฟซบุคและทวิตเตอร์ของนายกรัฐมนตรีอภิสิทธิ์ เวชชาชีวะ หรือหน้าเฟซบุคของกระทรวงต่าง ๆ

และด้วยความ "ตื่นตัว" ในการพยายามควบคุมข้อมูลออนไลน์ที่อาจถูกตีความว่าไม่ชอบด้วยกฎหมาย เว็บไซต์เครือข่ายสังคมก็ถูกเจ้าหน้าที่รัฐใช้สื่อสารกับประชาชนให้ช่วย "เป็นหูเป็นตา" คอยช่วยแจ้งถึงแหล่งข้อมูลออนไลน์ที่ไม่เป็นที่พึงประสงค์สำหรับรัฐบาล ซึ่งด้วยระยะแค่ไม่กี่ก้าวคลิก เราคงเห็นได้ชัดว่าวิธีนี้สะดวกสบายและรวดเร็วกว่าการตั้ง "สายด่วน" รับแจ้งเหตุทางโทรศัพท์เหมือนในสมัยก่อนเป็นไหน ๆ

แต่นอกจากจะช่วยอำนวยความสะดวกในการใช้เป็นเครื่องมือสื่อสารแล้ว ด้วยความนิยมที่เพิ่มขึ้นอย่างมากในระยะหลังไม่ว่าจะเป็นเพราะเรื่องการเมืองหรือไม่ เว็บไซต์เครือข่ายสังคมเหล่านี้ได้กลายเป็นแหล่งข้อมูลส่วนบุคคลจำนวนมหาศาลสำหรับเจ้าหน้าที่รัฐ (หรือใครก็ตาม) ที่สามารถสืบค้นข้อมูลตั้งแต่ความสัมพันธ์ ความสนใจร่วมกันระหว่างผู้ใช้กลุ่มหนึ่ง ๆ ไปจนถึงรายละเอียดที่สามารถใช้ระบุตัวตนได้ ในกรณีที่ผู้ใช้ขาดความระมัดระวังในการควบคุมความเป็นส่วนตัว

อิเล็กทรอนิกส์ ฟรอนเทียร์ ฟาวเดชัน (Electronics Frontier Foundation - EFF) องค์กรรณรงค์ด้านเสรีภาพบนอินเทอร์เน็ตจากสหรัฐอเมริกา ได้เผยแพร่เอกสารหลายฉบับจากหน่วยงานรัฐในสหรัฐอเมริกา เช่น สำนักข่าวกรองแห่งชาติ และกระทรวงการยุติธรรม ที่ชี้ให้เห็นถึงความพยายามในการใช้ข้อมูลจากเว็บไซต์เครือข่ายสังคมอย่างเฟซบุคและมายสเปซ มาช่วยในการสืบสวนสอบสวน ด้วยวิธีต่าง ๆ ทั้งที่ชอบด้วยกฎหมายและอาจถูกตั้งคำถามได้

จากการศึกษาโดยสำนักข่าวกรองแห่งชาติสหรัฐอเมริกา เจ้าหน้าที่สืบสวนทางอินเทอร์เน็ตสามารถระบุข้อมูลที่ "น่าสังเกต" หรือข้อมูลที่อาจไม่ชอบด้วยกฎหมาย เช่น หลักฐานการดื่มแอลกอฮอล์ก่อนเกณฑ์อายุ หรือแนวคิดทางการเมืองที่สุดโต่ง จากคนจำนวนถึง 53% ของกลุ่มตัวอย่าง 349 คน ด้วยเพียงค้นหาจากชื่อ ที่อยู่ วันเกิด และเลขประกันสังคมเท่านั้น

หรือแค่เพียงจากข้อมูลในมายสเปซที่ถูกตั้งค่าให้เปิดเผยสู่สาธารณะ เจ้าหน้าที่สามารถพบข้อมูลที่อาจไม่ชอบด้วยกฎหมายจากผู้ใช้ถึง 48% ของกลุ่มตัวอย่าง ซึ่งข้อมูลเหล่านี้ส่วนมากถูกพบในกลุ่มตัวอย่างที่มีอายุตั้งแต่ 18 - 24 ปี

สำหรับเครือข่าย หรือความสัมพันธ์กันระหว่างผู้ใช้ มีเอกสารที่แสดงให้เห็นว่าหน่วยปราบปรามยาเสพติดสหรัฐอเมริกาสามารถระบุที่อยู่ของผู้ต้องสงสัยจากเพื่อน ๆ ในเครือข่าย และหน่วยปราบปรามฯ ยังมีการใช้ซอฟต์แวร์ช่วยในการสร้างแผนผังความสัมพันธ์ระหว่างผู้ใช้มายสเปซและยูทูบ เพื่อระบุกลุ่มคนที่น่าจับตามอง

ในรายงานยังระบุถึงการใช้ซอฟต์แวร์ที่อาศัยช่องโหว่ของระบบในการดูภาพส่วนตัวของผู้ใช้มายสเปซ ซึ่งเป็นข้อกังขาว่าอาจเป็นการละเมิดข้อตกลงการใช้งาน คำถามนี้ได้รับการยืนยันจากบันทึกภายในกระทรวงยุติธรรม ที่มีการตั้งคณะกรรมการเชิงนโยบายเพื่อตรวจสอบการใช้ข้อมูลจากเว็บไซต์เครือข่ายสังคมของหน่วยต่าง ๆ เพื่อป้องกันการละเมิดข้อตกลงการใช้งาน หรือการละเมิดสิทธิส่วนบุคคลโดยเจ้าหน้าที่

นอกจากการดึงข้อมูลด้วยซอฟต์แวร์หรือการค้นหาทั่วไปแล้ว มีรายงานจากสำนักงานสอบสวนกลางหรือ FBI ที่เอ่ยถึงการสร้างบัญชีผู้ใช้ทั่วไปโดยเจ้าหน้าที่ เพื่อแทรกซึมไปหาข้อมูลในเครือข่าย และในนโยบายการใช้อินเทอร์เน็ตของหน่วยสืบราชการลับ มีการกำหนดให้เจ้าหน้าที่ไม่ทิ้ง "ร่องรอยอิเล็กทรอนิกส์" และใช้ "บัญชีผู้ใช้นิรนามจากผู้ให้บริการอินเทอร์เน็ต"

จากตัวอย่างข้างต้น เราคงจะจินตนาการได้ไม่ยากถึงความเป็นไปได้ที่เจ้าหน้าที่รัฐไทยจะมีความพยายามที่คล้ายคลึงกัน ซึ่งแม้ว่าเราจะไม่ได้กระทำความผิด เราก็ควรจะมีความเข้าใจในการปกป้องข้อมูลที่ตั้งใจให้เป็นส่วนตัว เราอาจจะเริ่มต้นอย่างง่าย ๆ ด้วยการตรวจสอบค่าความเป็นส่วนตัวในเฟซบุคให้เป็นแบบที่เราต้องการ สำหรับเทคนิคอื่น ๆ ในการรักษาความเป็นส่วนตัวนั้น ผู้เขียนจะทยอยนำมาเผยแพร่ต่อไป

ผู้อ่านสามารถค้นหาเอกสารที่ถูกอ้างถึงได้จากข่าวของ EFF หรือหน้าพิเศษสำหรับติดตามการเฝ้าระวังเว็บไซต์เครือข่ายสังคมโดย EFF เช่นกัน

Mobile Activism

ช่วงนี้ผมกำลังสนใจเป็นพิเศษในการอ่านเรื่องราวเกี่ยวกับการประยุกต์ใช้โทรศัพท์เคลื่อนที่ (หลังจากนี้ขอเรียกย่อ ๆ ว่ามือถือ) ให้เป็นประโยชน์ต่อสังคม ทั้งในด้านการศึกษา สาธารณสุข หรือการเมือง

เคยอ่านบทความ เขาบอกว่า คนในพื้นที่ที่พัฒนาแล้วจะรับรู้ข่าวสารผ่านสามจอ คือ คอมพิวเต้อร์ โทรทัศน์ และมือถือ พวกที่ห่างไกลออกมาหน่อยก็สองจอ (ตัดคอมพิวเต้อร์ออก) และที่ห่างไกลที่สุดก็เหลือจอเดียว คือมือถือ

ในประเทศกาน่า จำนวนคนใช้มือถือมีมากถึง 39 ใน 40 ของคนที่มีโทรศัพท์ทั้งหมด ในประเทศแทนซาเนีย ประชาชนร้อยละ 97 สามารถหามือถือใช้ได้ (อาจจะของเพื่อน ของญาติ) ความ "เข้าถึง" ของมือถือที่มากขนาดนี้ คิดว่าน่าจะเป็นเพราะการเดินสายโทรศัพท์บ้านนั้นต้นทุนสูงกว่ามาก และความ "เข้าถึง" ของมือถือนี้เอง (แม้ว่าจะเป็นรุ่นห่วย ๆ ก็ตาม) เป็นโครงสร้างพื้นฐานที่มีประโยชน์มากในการรณรงค์ หรือทำกิจกรรมทางสังคมต่าง ๆ

หมัดเด็ดของมือถือก็คือ มันใช้แทนอินเทอร์เน็ตได้ในระดับหนึ่ง ยิ่งในพื้นที่ที่อินเทอร์เน็ตเข้าไม่ถึงแล้ว มือถือนี่โคตรสำคัญในการเป็นตัวกลางไปหาอินเทอร์เน็ต หรือไปหาโลกนั่นเอง

ผมเคยเขียนถึงเรื่องระบบสืบค้นข้อมูลผ่าน SMS ในประเทศอูกันด้า (หรือว่ามันอ่านว่า ยูกันด้า ฟะ) ไปแล้วหนหนึ่ง เพิ่งไปเจอ Question Box ที่เจ๋งพอกันอยู่ในประเทศอินเดีย หลักการก็ง่าย ๆ คือ เอามือถือใส่กล่องที่ติดแผงโซล่าร์เซลล์ ไปตั้งไว้ ที่กล่องก็จะมีปุ่มกดให้พูด เมื่อกดแล้วมันก็จะต่อสายไปหาเจ้าหน้าที่ ที่สามารถเข้าถึงอินเทอร์เน็ตได้ แล้วอยากจะถามอะไรก็ถาม ความเท่มันอยู่ที่ว่า กล่องนี้ติดตั้งง่ายมาก ขอแค่มีแสงอาทิตย์ก็ไม่ต้องทำอะไรอีก แค่นี้ก็สามารถกระจายโอกาสในการ "เข้าถึงข้อมูล" ไปได้มาก (และแน่นอน กลุ่มที่ทำ Question Box นี้ก็ให้บริการถามตอบทาง SMS ด้วย)

ยุคนี้แล้วมือถือที่รับส่ง SMS ได้ก็น่าจะมีราคาถูกพอที่ใคร ๆ ก็ซื้อได้แล้ว นี่เป็นเรื่องที่ดีมากเพราะเรายังสามารถใช้ประโยชน์จาก SMS ได้เยอะ ข้อมูลมันก็จัดการง่าย เพราะเป็นแค่ข้อความ มีซอฟท์แวร์หลายตัวที่ถูกพัฒนาขึ้นเพื่อเป็นระบบรวบรวม SMS คือนึกภาพว่าเราตั้งกลุ่มเฉพาะกิจขึ้นมา คนกลางมีแค่แล็พท็อพเครื่องนึงที่ติดตั้งซอฟท์แวร์นี้ และเชื่อมต่อกับมือถือเครื่องนึง คนที่เหลือที่มีมือถือก็สามารถส่ง SMS มาหาคนกลาง เพื่อรายงาน/เก็บข้อมูล/สำรวจอะไรบางอย่าง เช่น ติดตามการทุจริตในการเลือกตั้ง รายงานภัยพิบัติ อะไรพวกนี้ ข้อความทั้งหมดก็จะถูกเก็บลงแล็พท็อพเอาไว้วิเคราะห์ต่อไป หรือจะส่งต่อไปกระจายเก็บไว้หลาย ๆ ที่ หรือส่งต่อไปสู่อินเทอร์เน็ตก็ย่อมได้ ตัวอย่างของซอฟท์แวร์ประเภทนี้ก็คือ FrontlineSMS หรือ SlingshotSMS

ในประเทศปากีสถาน มือถือแทบทุกเครื่องสามารถรับคลื่นวิทยุได้ และคนก็นิยมฟังวิทยุ ทำให้การกระจายข่าวสารเกี่ยวกับเหตุรุนแรงเป็นไปได้โดยง่าย

นอกจากของ "โลวเทค" อย่างที่กล่าวไปข้างต้นแล้ว ของ "ไฮเทค" ใหม่ ๆ อย่างพวก บริการตามพื้นที่ (ติดตามจาก GPS) หรือ Augmented Reality (ลองดู Layar ได้) ก็ยิ่งช่วยเรื่องพวกนี้ได้อย่างพิสดารพันลึก

ถ้าสนใจเรื่องพรรค์นี้ ขอแนะนำให้อ่านเว็บเหล่านี้

หรือถ้าใครมีแหล่งอื่น ๆ ก็มาแบ่งกันอ่านนะครับ

NS_ERROR_DOM_SECURITY_ERR in using canvas tag

I've found an incredible image processing library for JavaScript called "Pixastic". Of course I downloaded the code and tried it as a single HTML file in Firefox 3.5. Then, I just got the error NS_ERROR_DOM_SECURITY_ERR, which is an error thrown when you try to change some DOM information that is from another domain. So what's the problem while the image itself is exactly in the same place as the script?

Google just took me to http://www.nihilogic.dk, which is eventually a blog of the author of Pixastic. There are some comments in there mentioning my problem. The solution is that: you need to put the script and you "hello world" page for the script in a server. Therefore, Firefox won't complain about the security thing. I copied the codes to my localhost and it just works!

I would like to thank Jacob Seidelin for creating this great tool.

คอขวดของอินเทอร์เน็ตมหาวิทยาลัยธรรมศาสตร์

หลังจาก พรบ. ว่าด้วยการกระทำผิดทางคอมพิวเตอร์ ถูกประกาศใช้ มหาวิทยาลัยธรรมศาสตร์ก็ติดตั้งระบบลงทะเบียนก่อนเข้าใช้อินเทอร์เน็ต นั่นคือทุกคนที่ใช้ Wi-Fi ของมหาวิทยาลัย เมื่อเริ่มต้นเข้าหน้าเว็บใด ๆ จะถูกนำไปพบกับหน้าลงทะเบียนก่อน หากกรอกชื่อผู้ใช้กับรหัสผ่านที่ได้รับแจกมาเมื่อปลายปีที่แล้ว ก็จะสามารถใช้งานอินเทอร์เน็ตได้ (พร้อมกับถูกบันทึกการใช้งานทุกฝีคลิก)

ฟังดูเป็นเรื่องธรรมดา แต่ประเด็นก็คือ เท่าที่ผมเดาเอาอย่างไม่ค่อยมีความรู้เท่าไร โปรแกรมลงทะเบียนเข้าใช้อินเทอร์เน็ต (และฐานข้อมูล) เนี่ย มันน่าจะถูกติดตั้งอยู่ในคอมพิวเตอร์แค่เครื่องเดียว (สังเกตจากหมายเลข IP ของหน้าเว็บที่ใช้ลงทะเบียน ใช้ที่ไหน ๆ ก็ถูกเด้งไป IP นั้น) แล้วปัญหาก็คือ วันหนึ่ง ๆ จะมีคำขอลงทะเบียนเข้าใช้อินเทอร์เน็ตจำนวนมาก ถูกส่งไปยังเครื่องนี้ ทำให้กว่าจะเริ่มเข้าหน้าเว็บลงทะเบียนนั้นได้ มันค่อนข้างช้า ยิ่งไปกว่านั้น ถ้าเครื่องนี้มันเสือกดับ หรือฐานข้อมูลมันหยุดทำงาน ก็น่าจะไม่มีใครใช้ Wi-Fi ได้เลย (เพราะเรียกหน้าลงทะเบียนไม่ขึ้น หรือกรอกรหัสผ่านไปแล้วผลออกมาเป็นรหัสผ่านผิด ทั้ง ๆ ที่บันทึกเอาไว้ในเบราเซ่อร์) เป็นคอขวดที่น่าอนาถพอสมควร

ต้องออกตัวไว้ก่อนว่าที่กล่าวข้างบนนี้ เกิดจากการสังเกตเท่านั้น แต่ที่แน่ ๆ ก็คือ ทั้ง ๆ ที่ตอนนี้อยู่ที่หอพัก ผมกลับต้องส่งเอนทรี่นี้จากอินเทอร์เน็ตที่เชื่อมต่อผ่านโทรศัพท์เคลื่อนที่

เว็บสองจุดศูนย์รำพัน

อยากให้เธอ มาเม้นท์ ใน Hi5 อยากให้เธอ กด Like ใน Facebook แลกเพลงฟัง ใน iMeem คงเป็นสุข นึกสนุก กดไป Digg ให้เธอ

ฉันจะมี Multiply ไว้ใส่รูป จะส่งจูบ จุ๊บจุ๊บไป ใน Twitter Share เรื่องหวาน ผ่าน Goo- gle Reader เข้า Flickr ดูหน้าเธอ ให้ชื่นใจ

จะบันทึก ความลุ่มหลง ลง Wordpress สร้าง MySpace แล้ว add เธอ เป็น friend ไว้ เปิด Latitude คอยดู เมื่ออยู่ไกล เขียนถึงใน Livejournal ทุกเช้าเย็น

แค่นั่งนึก นั่งฝัน กลางวันไป เพราะตัวเรา นั้นไซร้ เธอไม่เห็น เว็บที่เรา เล่าไว้ เธอไม่เล่น ซ้ำหลบเร้น หลีกเรา เศร้าสุดทรวง

การเพิ่มคำสำหรับระบบสะกดคำอัตโนมัติในโทรศัพท์เคลื่อนที่

หลังจากได้ Nokia 3110c มา ผมก็ทวีตเป็นบ้าเป็นหลัง และนั่นหมายถึงการพิมพ์ข้อความในโทรศัพท์อย่างเป็นบ้าเป็นหลังด้วยเช่นกัน

โชคดีที่เรามี T9 ระบบสะกดคำอัตโนมัติในโทรศัพท์เคลื่อนที่! (กรุณาอ่านด้วยสำเนียงโฆษณาขายของทางโทรศัพท์ในโทรทัศน์ - อืม ทำไมมันไม่ขายของทางโทรทัศน์ในโทรศํพท์บ้าง แต่นั่นไม่เกี่ยวกัน - ตอนดึก ๆ)

สำหรับคนที่ไม่รู้จัก หลักการง่าย ๆ ของ T9 ก็คือ (กรุณาหยิบโทรศัพท์ขึ้นมาดูประกอบ) ถ้าเราจะพิมพ์คำอย่าง "แกลบ" จะเห็นว่าเราอักขระต่าง ๆ อยู่บนปุ่มเรียงตามลำดับ ดังนี้

"แ" บนเลข 0 - "ก" บนเลข 1 - "ล" บนเลข 8 - "บ" บนเลข 6

ถ้าไม่ใช้ T9 เราก็ต้องนั่งกดเลือกอักขระเหล่านั้น เช่น กด 6 สองครั้ง เพื่อเปลี่ยนจาก น เป็น บ

แต่ด้วยพลังของ T9 เราเพียงแค่กดตัวเลขที่มีอักขระเหล่านั้น คือ 0 1 8 6 มันก็จะแสดงคำที่ประกอบด้วยกลุ่มอักขระเหล่านั้น ในกรณีของโทรศัพท์ผม มันแสดง "แขวน" ขึ้นมาก่อน ก็กดปุ่มทิศทางลงเพื่อเลือกคำที่ต้องการ

มันสะดวกดีชะมัด แต่เดี๋ยวก่อน!

คือ T9 ของภาษาไทย มันมาพร้อมกับคำที่จำกัด บางคำมันก็ไม่รู้จัก เช่น คำว่า "เต่า" คือถ้าเรากด 0 5 * 0 แล้วเลื่อนหายังไงก็จะไม่เจอคำว่าเต่า ต้องเปลี่ยนกลับมาใช้วิธีธรรมดากดเอา (ในขณะที่บางคำเสือกมี เช่น กด 5 * 6 6 8 * 8 จะได้คำว่า "ดับบลิว" หรือกด 9 8 9 1 9 8 9 6 จะได้ "หลอกหลอน")

ผมก็ก่นด่า T9 มาตลอดว่า ทำไมไม่มีคำอย่าง เต่า หรือ ตู้ (ใช่แล้ว คำว่า ตู้ ไม่มีมาตั้งแต่แรก) มาตั้งแต่แรกวะ ด่ามันใน twitter จนหลายคนน่าจะอิดหนาระอาใจ จนวันหนึ่งผมเกิดดวงตาเห็นธรรม! (โดยไม่ต้องให้นายกฯ มาอวยพร) นั่นคือ T9 มันเพิ่มคำเองได้

ด้วยความที่ใช้ T9 ในการทวีตซะส่วนมาก เลยไม่เคยดูว่าในหน้าจอพิมพ์ข้อความมันมีตัวเลือกอะไรเพิ่มเติมบ้าง (แบบว่ารีบ) เมื่อกี้ลองกด Options ปุ๊บโป๊ะเชะ เจอ Insert word ก็เพิ่มคำว่า เต่า กับ ตู้ ลงไปอย่างบันเทิงใจ

ต้องกราบขออภัย T9 มา ณ ที่นี้ด้วย (ว่าแต่คำว่า ตู้ มันไม่ได้ใช้กันทั่วไปเรอะ ถึงไม่ได้มีมาด้วย! คำว่า "บัญชร" ยังมีเลยโว้ย กด 6 * 3 3 8 หรือถ้าคุณกด 6 8 0 7 8 8 1 4 9 7 0 7 9 0 3 0 ต่อกันในคราวเดียวก็จะได้ "ประมวลกฎหมายอาญา" ซึ่งพบบ่อยกว่าคำว่า "ตู้" เรอะ!)

รู้จักกับ Google Wave

ชาวบ้านชาวช่องเขาพูดถึงกันมาได้สักพักแล้ว ผมเพิ่งได้มีโอกาสมาทำความรู้จักกับมันอย่างจริงจังก็วันนี้

คงไม่ต้องพูดถึงอีกแล้วว่า Google Wave มันเจ๋งอย่างไร หรือถ้าใครเพิ่งจะมารู้จักมันเหมือนผม ก็ลองอ่านข่าวที่ blognoneก่อนได้ แต่ความสนใจของผมต่อ Google Wave ไม่ได้มีแค่ในฐานะผู้ใช้ แต่รวมไปถึงการพัฒนาต่อ (ซึ่งมันก็คือการใช้ไม่ใช่หรือวะ)

Google Wave นั้นทำงานอยู่บน protocol - ระเบียบวิธีในการรับส่งข้อมูล - ที่ชื่อ Google Wave Federation Protocol ที่ Google พัฒนาต่อมาจาก XMPP ซึ่งจะโค้ด (ส่วนใหญ่) ก็จะถูกเปิดออกสู่สาธารณะ และใคร ๆ ก็จะสามารถเอา Wave Protocol ไปประยุกต์ใช้งานได้

แนะนำให้อ่าน Google Wave: A Complete Guide แต่ถ้าขี้เกียจ อ่านข้างล่างนี่ก็ได้

รู้จักกับศัพท์ในวงการ Google Wave ก่อน

  • Wave คือชุดของการสนทนา (รวมไปถึงเอกสารและสื่ออื่น ๆ ที่ฝังอยู่) เปรียบได้กับบันทึกการสนทนาของพวก Instant Messaging อย่าง Live Messenger หรือ Google Talk
  • Wavelet ก็เป็นชุดของการสนทนาเช่นกัน แต่เป็นการสนทนาย่อย ๆ ที่อาจจะแยกวงมาจาก Wave ใหญ่อีกทีหนึ่ง
  • Blip คือข้อความเดี่ยว ๆ ที่เป็นหน่วยย่อยใน Wavelet กับ Wave
  • Document คือสิ่งที่อยู่ใน Blip จะเป็นข้อความหรือไฟล์อะไรก็ว่าไป
  • Extension คือส่วนต่อขยายจาก Google Wave หรือโปรแกรมที่ทำงานกับ Wave แบ่งย่อยได้สองประเภทหลัก ๆ
    • Robot คือระบบจัดการข้อความอัตโนมัติ อาจจะตอบข้อความได้ หรือรับคำสั่งจากเราได้
    • Gadget คือโปรแกรมเล็ก ๆ ที่ทำงานบน Wave
  • Embedded Wave คือการเอา Wave ไปแปะที่อื่น

พอตามอ่านแล้วพบว่าเอกสารและบทความเกี่ยวกับ Google Wave และ protocol ของมัน มีเยอะมาก ทั้งในแง่โครงสร้าง กลไก ที่กำลังอ่านอยู่คือไอเดียของ Operational Transformation ที่เป็นส่วนหนึ่งของการทำงานของ Google Wave ที่ช่วยให้คนหลายคนสามารถแก้ไขเอกสารพร้อม ๆ กันได้ แล้วยังมีแบบร่างของตัว Wave Federation Protocol อีก ไว้เข้าใจแล้วจะมาเล่า

Emergent Semantics

วันนี้ไปฟังบรรยายที่มหาวิทยาลัยเกษตรศาสตร์มา ในหัวข้อ "A Bag of Words Approach to Multimedia Semantics" โดย Prof. Dr. William I. Grosky จาก University of Michigan Dearborn

bag-of-words model นี่เป็นหลักการทางการประมวลผลภาษาธรรมชาติ (NLP) คร่าว ๆ คือถือว่าเอกสารหนึ่ง ๆ เป็นเหมือนถุงใส่คำ คือไม่สนใจลำดับหรือไวยากรณ์ แล้วข้อมูลทางสถิติว่ามีคำไหนอยู่มากน้อยก็จะสามารถบอกอะไรได้บางอย่าง ตัวอย่างการประยุกต์ใช้ก็คือระบบป้องกัน spam

ทีนี้ก็มีการเอา model นี้มาใช้ในสาขาอื่นบ้าง เช่นการรู้จำวัตถุจากภาพ โดยถือว่าภาพเป็นเอกสาร หรือถุงบรรจุคำ ส่วนคำที่ว่านี่ก็มาจากการแบ่งภาพออกเป็นส่วนย่อย ๆ เช่น แบ่งเป็นตาราง แล้วก็ดึงเอาคุณสมบัติบางอย่างในส่วนย่อยนั้นมา (ถือเป็นคำ) รวมในถุงใส่คำ แล้วก็ใช้วิธีทางสถิติวิเคราะห์

จริง ๆ แล้วในการบรรยายนี้มีอีกหลายเรื่องมาก แต่เขาพูดเร็วมาก ไม่ก็ผมช้าเอง จดทันบ้างไม่ทันบ้าง เอาอีกเรื่องที่ผมว่าน่าสนใจก็แล้วกัน คือ Emergent Semantics

ปกติแล้วเราสามารถดึง "ความหมาย" หรือ semantics ของข้อมูลใด ๆ ออกมาได้หลายวิธี ซึ่งข้อมูลสามารถมีได้หลายความหมายในเวลาเดียวกัน ขึ้นอยู่กับบริบทอื่น ๆ และผู้รับรู้ โดย ดร. คนนี้เสนอวิธีการดึงความหมายนั้นออกมาจากการ "ตามรอย" ของการรับรู้ข้อมูลกลุ่มหนึ่งที่เชื่อมโยงกัน (interlinked) เช่น หน้าเว็บ

ตัวอย่างเช่น รูป X เป็นรูปป่าในหมอก ถ้าเอามาถามคนหลายคนว่ามันเป็นรูปอะไร คนนึงก็บอกว่ารูปป่า อีกคนก็อาจจะบอกว่ารูปหมอก แต่ถ้าเราเห็นว่า ก่อนจะมาถึงรูป X เนี่ย ไอ้หมอนี่ดูรูปป่ามาก่อนหลายรูป เราก็จะสามารถตีความได้ว่า รูป X ในตอนนี้ หมายความถึงป่า แสดงให้เห็นว่า "ความหมาย" ของข้อมูลมันผุดขึ้นมาในระหว่างการรับรู้ข้อมูลมาเรื่อย ๆ นั่นเอง

ใครเข้าไปอ่านได้ก็ลองโหลดมาอ่านดูนะ http://portal.acm.org/citation.cfm?id=637420 http://www.springerlink.com/content/plbac36pxnvx31cy/

Subscribe to tech