c3... · Web viewคำพ องเส ยง (Soundex word) 2. คำเข ยนใกล...
Transcript of c3... · Web viewคำพ องเส ยง (Soundex word) 2. คำเข ยนใกล...
www.sansran.com
สรรสาร ลค คออะไรสรรสาร ลค เปนโปรแกรมสำาหรบพฒนาและจดการระบบคนคน
ขอมลผาน Web Browser ผใชสามารถสงใหโปรแกรมสรางดชนจากไฟลเอกสารทอยบนฮารดดสกของเครองหรอจะเปนเอกสารบนเวบกได โปรแกรมจะทำางานโดยผาน Interface ของ Web Browser ดงนนจงทำาใหการจดการขอมล การสงงาน รวมทงการตงคาตางๆทเกยวของกบระบบเปนไปอยางงายและสะดวก จดเดนของสรรสาร ลค คอความสามารถในการคนคนภาษาไทยไดถกตองและมความครอบคลมสง รวมทงยงมการเพมคณลกษณะตางๆททำาใหการคนคนเปนไปอยางมประสทธภาพมากยงขน เชนการแนะนำาคำาทใชคนคน (Query Suggestion) เปนตน
คณลกษณะของสรรสาร ลค- Support full-text and field-text search: ระบบสามารถคนคนเอกสาร จากขอความทงหมดหรอโดยการระบตาม field กได - Support local files and Web pages: ระบบสามารถสรางดชนขอมลจากเอกสารทอยบน ฮารดดสกของเครองหรอจะเปนเอกสารทอยบนเวบกได- Support multiple file formats: ระบบสามารถรองรบเอกสารในรปแบบ ( Format) ตางๆได เชน HTML, PDF, DOC- High-performance indexing for Thai language: ทางทมไดวจยและพฒนา โปรแกรมตดคำาภาษาไทย ( LexTo: Lexeme Tokenizer) ซงแกปญหาของคำาไมรจกโดย การเพมคำาในฐานขอมลและแกปญหาคำากำากวมโดยการวเคราะหทางสถต ทำาใหดชน ของคำาทสรางขนมามคณภาพในการคนคนสง
1
- User-friendly via Web browser interface: ผใชสามารถใชงานระบบผาน Web Browser ทวๆไป เชน Firefox และ Internet Explorer เปนตน- Configurability: ผใชสามารถกำาหนดและตงคาตางๆทเกยวของกบการคนคนได เชน จำานวนผลลพธจากการคนคน และ จำานวน field ตางๆในเอกสาร เชน หวขอ ผแตง และเนอหา เปนตน- Additional features related to Thai language: ระบบมคณลกษณะตางๆทางภาษาไทย ซงสามารถชวยผใชในการคนคนขอมลไดมประสทธภาพมากยงขน การแนะนำาคำาทใชคนคน ( Query Suggestion) และการแกไขคำาทพมพผด ( Query Approximation) เปนตน
ทมาของสรรสาร ลค ในปจจบนการสบคนขอมลเปนหนงในเทคโนโลยทขาดไมไดในยคเทคโนโลยสารสนเทศ โดยทผานมานนทมนกวจยและพฒนาโปรแกรมสรรสารซงเปนหนวยงานวจยโครงสรางพนฐานสารสนเทศอจฉรยะ ของฝายวจยและพฒนาเทคโนโลยสารสนเทศ (RD-I) สงกดศนยเทคโนโลยอเลกทรอนกส และคอมพวเตอรแหงชาต (NECTEC) ไดมการทำาวจยและพฒนาเทคนคตาง ๆทเกยวของเทคโนโลยคนคนขอมล มานานหลายป ผลงานทผานมาคอระบบสบคนขอมลบนอนเตอรเนตในชอสรรสาร (sansarn.com) ทผานมาทางทมสรรสารไดชวยพฒนาระบบสบคนขอมลใหกบหนวยงานทงของรฐและเอกชนตางๆ แตความตองการใชงานของระบบสบคนขอมลกยงมอยมาก ดงนนทางทมจงมแนวทางทจะพฒนาระบบคนคนขอมล ในลกษณะตนแบบรหสเปด (Open Source Search Engine) ทงนเพอใหผพฒนาโปรแกรมทวไปสามารถ นำาเอาโปรแกรมไปใชพฒนาตอยอดใน
2
ระบบสารสนเทศตางๆ โดยทไมตองเสยคาธรรมเนยมการใชโปรแกรม (License Fee) ซงจะชวยใหการใชงานเทคโนโลยสบคนขอมลในประเทศไทยเปนไปอยางแพรหลายมากขน และยงชวยลดการนำาเขาของซอฟตแวรตางประเทศไดอกดวย
สรรสารออฟไลน (Sansarn Offline)สรรสารออฟไลน (Sansarn Offline) เปนโปรแกรมสำาหรบ
สบคนขอมลบนอนเตอรเนตแบบไมเชอมตอ โดยทขอมลจากเวบไซตจะถกคดเลอกจากผใช เพอนำามาจดเกบลงในเครองคอมพวเตอร จากนนผใชเปดโปรแกรมเพอสรางสารบญสำาหรบจดขอมลลงตามหมวดหม และสงใหโปรแกรมทำาการสรางฐานดชนจากขอมลโดยอตโนมต ทงนขอมลทงหมดรวมทงฐานดชนสามารถนำาไปบนทกบนสอดจตอลตางๆได เชน ฮารดดสค แผนซด/ดวดรอม หรอ Thumb Drive เปนตน ซงจะทำาใหสามารถแจกจายไปยงผทตองการใชขอมลไดงาย
โปรแกรมนเหมาะกบผใชคอมพวเตอรทอาศยอยในพนททไมสามารถเชอมตอกบอนเตอรเนตไดหรอมความเรวของการเชอมตอตำา
3
โดยทผใชสามารถพกพาสอดจตอลทมขอมลพรอมกบฐานดชนไปใชงานกบเครองคอมพวเตอรใดกไดทมโปรแกรมสรรสารออฟไลนลงไว การประยกตใชงานทนาจะเปนประโยชนคอ การคดเลอกและจดทำาขอมลจากอนเตอรเนตทเกยวของกบรายวชาตางๆทใชสอนในชนเรยน เพอเปนสอการเรยนรเพมเตมสำาหรบนกเรยน
โครงสรางทางสถาปตยกรรมของระบบแสดงในรปตอไปน
4
ขนตอนท 1: การบรหารจดการเนอหาขอมล (Content Administration)- การเกบรวบรวมขอมล (Collector): ผบรหารจดการขอมลซงอาจจะเปนครและอาจารย ทำาการเกบขอมลโดยใช คำาสง Save As ใน Web Browser เกบหนาเวบพรอมทงสอมลตมเดยอนๆทอยภายในหนานนๆเชน รปภาพ Flash และอนๆ การเกบขอมลจากเวบอาจจะอาศยโปรแกรมอนๆเชน Teleport Pro ทำาการเกบทละมากๆไดเชนกน - การสรางสารบญสำาหรบจดเกบขอมลตามหมวดหม (Organizer): ผบรหารจดการขอมลสามารถใชโปรแกรมในการสรางสารบญตามตองการได โดยทหวขอในสารบญสามารถแยกเปนลำาดบชนไดไมสนสด เชน สาระการเรยนร > วทยาศาสตรทวไป > ธรณวทยา เปนตน
5
- การสรางฐานดชนเพอการสบคน (Indexer): เมอทำาการสรางสารบญ รวมทงนำาเอาขอมลตางๆจดลงในสารบญเรยบรอยแลว ผบรหารจดการขอมลสงใหโปรแกรมสรางฐานดชนโดยอตโนมตได โปรแกรมจะทำาการประเมนเนอทบนฮารดดสคทตองการใหดวย ขอมลรวมทงฐานดชนจะถกจดรวมไวในแพคเกจเดยวกน (.san package) เพอสะดวกตอการนำาไปบนทกบนสอดจตอลตางๆและแจกจายไดงาย
ขนตอนท 2: การคนคนเนอหาขอมล (Content Retrieval)- การคนคนขอมล (Searcher): ผใชทวไปเชน นกเรยน สามารถใชโปรแกรมในการคนหาขอมลได 2 วธ คอ การเลอกเนอหาจากสารบญ (Content Browsing) และการคนคนโดยใชคำาสำาคญ (Keyword Searching) ผลลพธจากการคนคนจะเรยงลำาดบโดยใชหลกเกณฑความถของคำาเปนหลก และมการเนนคำาทคนคนในผลลพธ (Highlighting) ในลกษณะเหมอนกบการใช Search Engine ทวไป และเนองจากขอมลทนำามาจากอนเตอรถกบนทกอยบนสอดจตอลแลว ผใชสามารถคลกบนลงคของผลลพธเพอดเนอหาไดในทนทโดยไมจำาเปนตองเชอมตอกบอนเตอรเนต
ไอ-คย
6
ไอ-คย เปนโปรแกรมสำาหรบทำานายคำาและวลใหกบผใชใน ระหวางทพมพขอความภาษาไทย โดยทผใชสามารถระบประเภท ของเอกสารทตองการใหโปรแกรมทำานายได และยงสามารถเพม และจดเกบขอความทพมพเปนประจำาเพอใหโปรแกรมเรยนรได
สถาปตยกรรมของระบบ (System Architecture):
คณลกษณะและสวนประกอบของระบบ (Features and System Components): การทำางานของไอ-คย ประกอบไปดวย 2 สวนหลกคอ(1) โปรแกรมสำาหรบเรยนรคลงขอความจากผใช (Personal Text-Corpus Learning Tool):หนาท: โปรแกรมนมหนาทในการเรยนรสถตการพมพคำาและวล จากคลงขอความของผใช ทำาให ชวยเพมขดความสามารถ ในการทำานายคำาและวลใหตรงกบลกษณะขอความทผใชกำาลงพมพมากขนสวนประกอบยอย:
7
- โปรแกรมวเคราะหการเรยงตวของอกขระ (Parser) - โปรแกรมวเคราะหและคำานวณสถตของคำาและวล (Statistical Analyzer) การทำางาน: ผใชเปดโปรแกรมและระบคลงขอความหรอเอกสาร(Personal Text Corpus) จากนนจงใหโปรแกรมวเคราะหการเรยงตวของอกขระและคำานวณสถตของคำาและวลทปรากฏในคลงขอความ ผลลพธทไดคอคลงคำาและวลสำาหรบใชทำานายเฉพาะบคคล (Personal Word Prediction Set) (2) โปรแกรมทำานายคำาจากขอความทผใชกำาลงพมพ (Word-Prediction Hook-Up Module): หนาท: โปรแกรมนมหนาทในการดกขอความทผใชกำาลงพมพอยและทำาการทำานายคำาหรอวลใหผใชพจารณาสวนประกอบยอย:- อนเตอรเฟสเชอมตอระหวางโปรแกรมพมพเอกสารทผใชเปดใชงานอย (System Interface) กบโปรแกรมไอ-คย สวนนมหนาทดกตวอกษรทผใชพมพผานทางคยบอรด (Keyboard Hook-Up Module) เพอสงไปยงสวนทำานายคำาและวล จากนนจงรบ ผลลพธจากการทำานายกลบมาใหกบผใชพจารณา - สวนทำานายคำาและวล
- คนหาคำาหรอวลทเปนไปไดจากการตรวจสอบขอความทผใชกำาลงพมพอย (Searching)
- จดอนดบคำาและวลโดยเรยงจากสถตความนาจะเปน (Ranking) การทำางาน: ผใชเปดโปรแกรมไอ-คยและระบคลงคำาและวลสำาหรบใชทำานาย จากนนจงเปดโปรแกรมสำาหรบพมพเอกสารทวไป เมอผใชเรมพมพขอความ โปรแกรมไอ-คยจะเรมทำานายคำาหรอวลใหกบผใช หากคำา
8
หรอวลนนตรงกบทผใชกำาลงจะพมพ ผใชสามารถกด Enter เพอใหโปรแกรมแทนคำาหรอวลนนลงในขอความโดยอตโนมต ดงนนผใชสามารถประหยดเวลาในการพมพได การประยกตใชงานในรปแบบตางๆ (Applications): - สามารถนำาไปประยกตใชในระบบและโปรแกรมตางๆ เชน
- ชวยเพมประสทธภาพใหกบการพมพเอกสารในโปรแกรมพมพเอกสารทวไป โดยผใชสามารถระบประเภทของเอกสารทกำาลงพมพไดเอง
- ประยกตใชกบระบบพมพขอความบนมอถอ โดยชวยใหการพมพขอความ SMS มความรวดเรวขน
Thai Query Correction โปรแกรมแกไขคำาคนคนภาษาไทย ทำาหนาทชวยผใชปรบแตงคำาสำาหรบนำาไปสบคนในเสรจเอนจน (Search Engine)ประกอบดวยเทคนคทสำาคญ 2 ประเภท คอ1. คำาพองเสยง (Soundex word)2. คำาเขยนใกลเคยง (Approxy word)
คำาพองเสยง คอ คำาทออกเสยงเหมอนกน แตมรปเขยนตางกน เชนจรล - จรญจนทร - จนทน - จนผดไทย - ผดไท จะเหนไดวาการใชรปพองเสยงอยางไมถกตอง อาจทำาใหเกดปญหาในการคนหาขอมล เชน ในการคนหาหมายเลขโทรศพท การสะกด
9
ชอเจาของเลขหมายผดอาจทำาใหไดขอมลไมตรงกบบคคลทตองการ โปรแกรมนไดชวยลดปญหาดงกลาว โดยนำาเสนอคำาพองเสยงทเขยนในรปทแตกตางออกไป ซงนนอาจเปนคำาทผใชตอง การแตไมสามารถสะกดไดอยางถกตอง
คำาเขยนใกลเคยง คอ คำาทมรปเขยนใกลเคยงกน อาจเปนคำาทเขยนผด สะกดผดหรอ ใชวรรณยกตผด เชนฟสกส - ฟสกส : คำาแรกพมพตกตวสระอวจน - วจย : คำาแรกพมพผดจาก ย เปน นอาจเปนเพราะปมกดตวอกษร ย และ น อยใกลกนออนซอม - ออนซอม : คำาแรกใชเครองหมายวรรณยกตผด พมพไมตร แทนทจะเปนไมโท โปรแกรมนจะชวยตรวจสอบคำาทเกดขนในกรณทกลาวมา โดยจะนำาเสนอคำาทใกลเคยงกบคำาทตองการ ซงจะชวยใหผใชทพมพผดพลาดจากการพมพเรวหรอผดพลาดเพราะไมสามารถพมพไดอยางถกตอง ไดรบคำาทเปนตวเลอกทอาจตรงกบคำาทตองการ
คณสมบต
www.sansran.com คอ โปรแกรม Search Engine ของไทย ทเขามาสบคนขอมลในหลากหลายรปแบบ สามารถคนหาเวบและขาวทงภาษาองกฤษและไทย มระบบตดคำาภาษาไทยทถกตองแมนยำา พฒนาโดย NECTEC.
10
ขอด : ใชในการสบคนขอมลไดหลากหลายและตรงกบความตองการขอเสย ; มวธการใชคอนขางจะยงยาก สบสน ซบซอน
รปแบบหนาเวบของ www.sansran.com
ขนท 1 ใสขอมลทเราจะคนหาในชองหนาเวบ
11
ขนท 2 คลกทปม คนหาขนท 3 เวบไซตจะแสดงผลทเราคนหามาให
12