วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

20110119 : AI613 Class9_Data Management (cont) and Business Intelligence

Data Management (cont)

Data Warehouse Process
1. ถ้าจำเป็นต้องใช้ Data Warehouse ก่อนอื่นต้องรู้ว่า มีข้อมูลอะไรบ้างในองค์กร (Operational Data) และข้อมูลภายนอก เช่น ข้อมูลคู่แข่ง (มีผลิตภัณฑ์อะไรบ้าง ราคาเท่าไหร่) โดยจะต้องมีการสร้าง Meta Data ด้วย
        2. Data Staging ศัพท์ทางเทคนิคเรียกว่า ETL 
             - Extract การดึงข้อมูลจาก Database ต่างๆ
             - Clean การจัดการกับข้อมูลที่แหว่ง
            - Transform การแปลงข้อมูลที่ไม่มีประโยชน์ให้อยู่ในรูปแบบที่มีประโยชน์ อาจอยู่ในรูปของ Data Cube
             - Load โหลดข้อมูลลง Data Warehouse
        3. Data Warehouse Business Subject ประกอบด้วยหลายๆ Data Cube
        4. Business Views มุมมองของการเรียกหาสิ่งที่อยู่ใน Data Warehouse ใช้เพื่อวิเคราะห์การตัดสินใจ โดยจะถูกอัพโหลดขึ้นในเว็บ แล้วใช้งานบน Dashboard
        5. Information Catalog
        6. Business Intelligence

        Meta Data เป็น Data ของ Data ซึ่งก็คือเป็น Data ที่ใช้อธิบาย Data ที่อยู่ใน Data Warehouse โดย Metadata จะอธิบายว่ามีการ move ข้อมูลมาจาก Database ไหน และ Summarize อะไรไปยังไงบ้าง

        The Data Mart เป็น Small scale ของ Data Warehouse เนื่องจากเดิมข้อมูลทั้งหมดจะอยู่ใน Enterprise Data Warehouse แล้วระบบอาจจะเกิดการ Overload เวลาที่มีคนใช้พร้อมกันมากๆ จึงเกิด Data Mart ขึ้น ซึ่ง Data Mart จะมี 2 แบบ คือ
        1. แบบ Replicated จะมี Enterprise Data Warehouse ก่อน แล้วค่อย Replicate บางส่วนที่ต้องการมาเป็น Data Mart
        2. แบบ Stand-alone data marts เกิดจากกรณีที่องค์กรยังไม่พร้อมทำ Enterprise Data Warehouse จึงเริ่มที่การทำ Data Mart เป็นของตัวเองไปก่อน พอถึงจุดที่ทุกฝ่ายพร้อม ค่อยเอา Data Mart มารวมกัน

        The Data Cube คือ ฐานข้อมูลที่มีหลายมิติ ทำให้ Query ได้ดีขึ้น มีจุดมุ่งหมายที่ชัดเจนขึ้น เป็นประโยชน์ในการ Slice & Dice เพื่อใช้ในการวิเคราะห์ของผู้บริหารได้

----------------------------------------------------------

Business Intelligence (BI)
        
        BI ไม่ใช่ระบบสารสนเทศ แต่เป็น Tool ในการจัดการข้อมูล ซึ่งไม่ได้เป็น Requirement ที่ว่า การทำ BI ต้องมี Data Warehouse แต่การดึงข้อมูลจาก Database อาจเจอปัญหา Inconsistency ได้

BI Architecture
        - Data extraction and Integration การรวบรวมข้อมูลจากแหล่งต่างๆ
        - Data Mining, query, and analysis tools การทำข้อมูลให้อยู่ในรูปแบบที่เป็นประโยชน์ในการวิเคราะห์ข้อมูล และวิเคราะห์ข้อมูลด้วยเครื่องมือต่างๆ
        - Enterprise Reporting Systems ใช้ในการเตรียมข้อมูลให้ผู้บริหาร

Business Performance Management (BPM) ทำหน้าที่บริหารจัดการผลการดำเนินงาน เพื่อให้เกิด Quickly และ Easily ซึ่งการทำ BPM จะเป็นการวัดผลเชิงกลยุทธ์ โดยเทียบกับ KPI แล้วนำเสนอบน Dashboard

Online Analytical Processing (OLTP) เป็นจุดเริ่มต้นของผู้บริหารในการใช้ระบบสารสนเทศ

Data Mining เป็นกระบวนการในการดึงข้อมูลจากฐานข้อมูลต่างๆ เพื่อค้นหารูปแบบและความสัมพันธ์ของข้อมูล เพื่อให้ได้ข้อมูลที่สำคัญและเป็นประโยชน์ในการตัดสินใจ

Yield from Data mining มี 5 รูปแบบ ได้แก่
- Clustering การจัดกลุ่มข้อมูล โดยไม่ได้กำหนดกลุ่มไว้ล่วงหน้า
- Classification การจัดกลุ่มโดยกำหนดกลุ่มไว้ล่วงหน้า แล้วจัดข้อมูลเข้าไปอยู่ในกลุ่มนั้นๆ
- Association ผลสืบเนื่องที่เกิดจากเหตุการณ์ 2 เหตุการณ์ มีการเชื่อมโยงกัน
- Sequence discovery พบรูปแบบหรือเหตุการณ์ที่มักจะเกิดขึ้น
- Prediction อาจพบข้อมูลที่มีแนวโน้มหรือรูปแบบที่สามารถคาดการณ์สิ่งที่อาจเกิดขึ้นได้

Text Mining คือ การทำ Data Mining สำหรับข้อมูลที่เป็น Unstructured Data ซึ่งอาจเป็นได้ทั้งตัวเลข ตัวหนังสือ แต่ไม่สามารถจับรูปแบบที่แน่นอนได้

Web Mining คือ การทำ Text Mining ในรูปแบบหนึ่งที่จะเกิดขึ้นบนเว็บไซต์ ซึ่งจะช่วยเพิ่มความสามารถให้กับเว็บไซต์ได้


น.ส.จิราพร พรพัฒนกุลฑล
ID NO. 5202112743

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

20110112 : AI613 Class8_Data Management

        ระบบ (System) คือ สิ่งที่เกิดจากการเอาหน่วยย่อยๆ มาทำงานร่วมกัน โดยหลักการจะมี Input ผ่าน Process ออกมาเป็น Output แต่ถ้ามีแค่นั้นก็จะมีแต่ระบบ ไม่มีระเบียบ ดังนั้นจึงต้องมีการกำหนดวัตถุประสงค์ก่อน ตัวอย่างเช่น การปลูกบ้าน จะต้องมีการวาดโครงสร้างหรือสิ่งที่ต้องการ (ปลายทาง) ก่อน แล้วทำอย่างไรจึงจะได้แบบนั้น (Process) แล้วตัว Process จะบอกว่าต้องมี Input อะไรบ้าง แต่ถ้าเรากำหนด Input ก่อน Output ที่ได้อาจไม่เป็นไปตามที่ต้องการก็ได้
        Output ของระบบสารสนเทศ คือ สารสนเทศ (บางครั้งอาจเรียก Output ว่า report เพราะต้องมี Format เช่น รายงานประจำปี)

Information VS Data VS Knowledge
เนื่องจากหลายๆ กระบวนการอาจเป็นไปได้ว่า input และ output มีลักษณะภายนอกที่คล้ายคลึงกันมากจนไม่สามารถแบ่งแยกออกจากกันได้โดยง่าย ดังนั้นการจะดูว่าข้อมูลนั้นเป็น Information หรือ Data จะต้องดูที่ประโยชน์ของการได้รับมา ซึ่งขึ้นอยู่กับผู้รับ
Message หนึ่ง สามารถเป็นได้ทั้ง Information และ Data ขึ้นอยู่กับว่า เป็นผู้มีส่วนได้ส่วนเสียจาก Message ที่ได้รับมาหรือไม่ ถ้า Message นั้นไม่มี Benefit กับผู้รับ >> Message = Data แต่ถ้า Message นั้นทำให้เกิดการเปลี่ยนแปลง Action >> Message = Information
สาเหตุที่ Data ไม่เปลี่ยนไปเป็น Information อาจเกิดจาก Process ที่ไม่ดี พอ Data ผ่าน Process แล้วทำให้ไม่เข้าใจ >> ข้อมูลจึงไม่เป็นไม่ประโยชน์ >> ไม่เป็น Information
สิ่งที่อยู่ใน Management Report จะถือเป็นสารสนเทศ (Information) เพราะเป็นข้อมูลที่เป็นประโยชน์สำหรับผู้บริหารในการปรับปรุงแก้ไขบริษัท

นิยามของระบบสารสนเทศ
        ระบบสารสนเทศ คือ ระบบที่ทำหน้าที่ในการสร้างหรือผลิตสารสนเทศ ซึ่งการจะเป็นระบบได้จะต้องมี Input, process และ output
        - Twitter, Facebook, tbs.tu.ac.th เป็นเหมือนป้ายประกาศข่าว ไม่ใช่ระบบสารสนเทศ แต่ Amazon เป็นระบบสารสนเทศ
        ระบบสารสนเทศ (IS) คือระบบที่ทำหน้าที่ในการรวบรวมข้อมูล เพื่อนำมาประมวลผล วิเคราะห์ เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน และนำเสนอสารสนเทศให้กับผู้ที่ต้องการ ซึ่งต้องเป็นผู้มีสิทธิได้รับสารสนเทศ รวมทั้งการจัดเก็บบันทึกข้อมูลที่นำเข้ามาสู่ระบบไว้เพื่อการใช้งานในอนาคต (เราเก็บข้อมูล ไม่ใช่สารสนเทศ เพราะตราบใดที่เรามีข้อมูล ก็จะสามารถสร้างสารสนเทศเมื่อไรก็ได้)
        - Website เป็น “ระบบ” แต่มีวัตถุประสงค์เพื่ออำนวยความสะดวก ดังนั้นจึงไม่เสมอไปว่าจะเป็น “ระบบสารสนเทศ” เพราะบาง Web มีไว้เพื่อวัตถุประสงค์ในการประชาสัมพันธ์เท่านั้น
        - องค์ประกอบของระบบสารสนเทศ ได้แก่ Hardware, Software, Data, Network, Procedures และ People
        - หัวใจสำคัญของระบบสารสนเทศ คือ Input ซึ่งจะสามารถสร้าง Output ได้ทุกเมื่อ

Data Management การจัดการข้อมูลเป็นเรื่องยาก เนื่องจาก
- ข้อมูลมีจำนวนมาก จะเก็บทุกอย่างไม่ได้
- ข้อมูลกระจัดกระจายอยู่ทั่วทั้งองค์กร
- ข้อมูลมีความซับซ้อน แต่ละหน่วยงานจะมีลักษณะเฉพาะและมีการพึ่งพิงกัน
- ต้องคำนึงถึงและให้ความสำคัญกับความปลอดภัย คุณภาพ และ Integrity ของข้อมูล

# คำสั่งซื้อของลูกค้าเป็น Internal Data โดยพิจารณาจากอำนาจในการควบคุมจัดการ ส่วน External data ได้แก่ ราคาสินค้าของคู่แข่ง เป็นต้น #

        วัตถุประสงค์ในการจัดการข้อมูล เพื่อให้เป็นระบบฐานข้อมูลที่เป็น Infrastructure ที่จะแปลงข้อมูลดิบให้เป็นสารสนเทศที่มีคุณภาพสูงสุดได้

Data Life Cycle Process
        เมื่อมีข้อมูลเกิดขึ้นจากแหล่งต่างๆ จะถูกเก็บบันทึกไว้ที่ Database ก่อนที่จะถูกดึงข้อมูลไปยัง Data Warehouse หรือ Data Mart เพื่อนำไปใช้วิเคราะห์ต่อไป

Data Sources
- Organizational Data มักจะถูกเก็บไว้ใน Database ของบริษัท ซึ่งเป็นข้อมูลเกี่ยวกับบุคลากร ผลิตภัณฑ์ บริการ และกระบวนการต่างๆ
- End user Data เป็นข้อมูลทักษะ ความเชี่ยวชาญ และความชำนาญของบุคลากร
- External Data เป็นข้อมูลที่บริษัทไม่ได้มีอำนาจจัดการหรือเป็นเจ้าของข้อมูลนั้น เช่น ราคาสินค้าของคู่แข่ง

Data Management Evolution
        ปัจจุบันไม่นิยมทำ File Management หรือ File Processing กันแล้ว แต่จะทำ Database Management และ Data Warehousing แทน

Data Warehouses
        Data Warehouses ไม่ใช่ Advance ของ Database และไม่ใช่ Database หลายๆ อันมารวมกัน เพราะสร้างขึ้นมาคนละวัตถุประสงค์กัน แต่จะมาจากการ Extract ข้อมูล คือดึงเฉพาะข้อมูลที่ต้องการ (Attribute ที่ต้องการ) ดังนั้นจึงต้องรู้โครงสร้าง (Schema) ของแต่ละ Database ด้วย เพื่อที่จะได้ Extract ได้ถูก
        Data Warehouses เหมาะกับองค์กรที่ผู้บริหารใช้การตัดสินใจโดยมีพื้นฐานมาจากการวิเคราะห์ข้อมูลบ่อยๆ (Information based) แต่ถ้าหากผู้บริหารมักจะใช้ประสบการณ์ในการตัดสินใจก็ไม่จำเป็นต้องมี Data Warehouses

Characteristics of Data Warehouses
        1. Organization ข้อมูลจะถูกจัดเก็บเป็นหมวดหมู่ตามวัตถุประสงค์ ดังนั้นหัวใจสำคัญคือ ต้องการวิเคราะห์ข้อมูลใน Subject อะไร (Subject oriented)
        2. Consistency ข้อมูลเดียวกันในแต่ละ Database อาจมี Format ที่แตกต่างกัน แต่ใน Data Warehouses จะต้องทำให้มี Format เดียวกัน
        3. Time variant ข้อมูลจะถูกเก็บไว้ 5 ถึง 10 ปี ดังนั้นจึงสามารถใช้ในการวิเคราะห์แนวโน้มและเปรียบเทียบกันได้
        4. Non-volatile ข้อมูลจะไม่มีการเปลี่ยนแปลงหรือ update ใดๆ เพราะเป็นข้อมูลในอดีต (การนำข้อมูลใหม่ๆ ใส่เข้าไปใน Data Warehouses จะเรียกว่า Refresh ไม่ใช่ Update)
        5. Relational ข้อมูลใน Data Warehouses จะมีการเชื่อมโยงกัน
        6. Client/Server ผู้ใช้สามารถเข้าถึงข้อมูลได้ง่าย

Data Warehouse Suitability
- ข้อมูลที่มีจำนวนมาก
- ข้อมูลเดียวกันถูกเก็บไว้ในหลายๆ ระบบ จึงมีหลาย Format
- ผู้บริหารใช้ Information based ในการตัดสินใจ


น.ส.จิราพร พรพัฒนกุลฑล
ID NO. 5202112743