ระบบข้อมูลที่มีประสิทธิภาพช่วยให้ผู้ใช้มีข้อมูลที่ถูกต้องทันเวลาและมีความเกี่ยวข้อง ข้อมูลที่ถูกต้องปราศจากข้อผิดพลาด ข้อมูลที่เกี่ยวข้องมีความเป็นประโยชน์และเหมาะสมกับประเภทของงานและการตัดสินใจที่จำเป็นต้องใช้ คุณอาจจะประหลาดใจที่ทราบว่าธุรกิจจำนวนมากไม่มีข้อมูลที่ทันเวลาถูกต้องหรือเป็นข้อมูลที่เกี่ยวข้องเนื่องจากข้อมูลในระบบสารสนเทศของตนมีการจัดและบำรุงรักษาอย่างไม่ดี
ลำดับชั้นข้อมูล
ระบบคอมพิวเตอร์จัดข้อมูลในลำดับชั้นที่ขึ้นต้นด้วยบิตซึ่งหมายถึง 0 หรือ 1 บิตสามารถจัดกลุ่มเป็นไบต์เพื่อแสดงอักขระหมายเลขหรือสัญลักษณ์หนึ่งตัวได้ ไบต์สามารถจัดกลุ่มเป็นแบบฟอร์มฟิลด์และฟิลด์ที่เกี่ยวข้องสามารถจัดกลุ่มเป็นแบบฟอร์มได้ ระเบียนที่เกี่ยวข้องสามารถทำให้เกิดรูปแบบแฟ้มและไฟล์ที่เกี่ยวข้องสามารถจัดเป็นฐานข้อมูลได้
ปัญหาเกี่ยวกับสภาพแวดล้อมแฟ้มข้อมูลที่เป็นรูปธรรม
ข้อมูลซ้ำซ้อนและไม่สม่ำเสมอ ข้อมูลซ้ำซ้อนคือการปรากฏตัวของข้อมูลที่ซ้ำกันในไฟล์ข้อมูลหลายๆ ไฟล์เพื่อให้ข้อมูลเดียวกันถูกจัดเก็บในสถานที่มากกว่าหนึ่งแห่งซึ่งนำไปสู่แหล่งข้อมูลการจัดเก็บขยะ ความไม่สอดคล้องกันของข้อมูลเป็นแอตทริบิวต์เดียวกันอาจมีค่าที่แตกต่างกันและยังนำไปสู่ความซ้ำซ้อนของข้อมูล
การประมวลผลไฟล์แบบดั้งเดิม
การใช้วิธีการแบบดั้งเดิมในการประมวลผลไฟล์ทำให้แต่ละพื้นที่ทำงานใน บริษัท ต่างๆสามารถพัฒนาแอพพลิเคชันเฉพาะได้ แต่ละแอ็พพลิเคชันต้องการไฟล์ข้อมูลที่ไม่ซ้ำกันซึ่งจะนำไปสู่ข้อมูลซ้ำซ้อนและไม่สอดคล้องกันการประมวลผลความไม่ยืดหยุ่นและการสูญเสียทรัพยากรที่จัดเก็บ
ระบบฐานข้อมูลและระบบจัดการฐานข้อมูล (Database Management Systems - DBMS)
DBMS คือ ระบบการจัดการฐานข้อมูล
หรือซอฟต์แวร์ที่ดูแลจัดการเกี่ยวกับฐานข้อมูล
โดยอำนวยความสะดวกให้แก่ผู้ใช้ทั้งในด้านการสร้าง การปรับปรุงแก้ไข การเข้าถึงข้อมูล และการจัดการเกี่ยวกับระบบแฟ้มข้อมูลทางกายภาพ
ภายในฐานข้อมูลซึ่งต่างไปจากระบบแฟ้มข้อมูลคือ
หน้าที่เหล่านี้จะเป็นของโปรแกรมเมอร์
ในการติดต่อฐานข้อมูลไม่ว่าจะด้วยการใช้คำสั่งในกลุ่ม DML หรือ DDL
หรือ
จะด้วยโปรแกรมต่างๆ ทุกคำสั่งที่ใช้กระทำกับฐานข้อมูลจะถูกโปรแกรม DBMS นำมาแปล (Compile)
เป็นการกระทำต่างๆภายใต้คำสั่งนั้นๆ
เพื่อนำไปกระทำกับตัวข้อมูลใน ฐานข้อมูลต่อไป
DBMS ถูกพัฒนาขึ้นเพื่อแก้ไขปัญหาด้าน
Data Independence ที่ไม่มีในระบบแฟ้มข้อมูล
ทำให้มีความเป็นอิสระจากทั้งส่วนของฮาร์ดแวร์
และข้อมูลภายในฐานข้อมูลกล่าวคือโปรแกรม DBMS นี้จะมีการทำงานที่ไม่ขึ้นอยู่กับรูปแบบ
(Platform) ของตัวฮาร์ดแวร์
ที่นำมาใช้กับระบบฐานข้อมูลรวมทั้งมีรูปแบบในการอ้างถึงข้อมูลที่ไม่ขึ้นอยู่กับโครงสร้างทางกายภาพของข้อมูลด้วยการใช้
Query Language ในการติดต่อกับข้อมูลในฐานข้อมูลแทนคำสั่งภาษาคอมพิวเตอร์ในยุคที่ 3 ส่งผลให้ผู้ใช้สามารถเรียกใช้ข้อมูลจากฐานข้อมูลได้โดยไม่จำเป็นต้องทราบถึงประเภทหรือขนาดของข้อมูลนั้นหรือสามารถกำหนดลำดับที่ของฟิลด์
ในการกำหนดการแสดงผลได้โดยไม่ต้องคำนึงถึงลำดับที่จริงของฟิลด์ นั้น
หน้าที่ของ DBMS
1.ทำหน้าที่แปลงคำสั่งที่ใช้จัดการกับข้อมูลภายในฐานข้อมูลให้อยู่ในรูปแบบที่ข้อมูลเข้าใจ
2.ทำหน้าที่ในการนำคำสั่งต่างๆ
ซึ่งได้รับการแปลแล้วไปสั่งให้ฐานข้อมูลทำงาน เช่น การเรียกใช้ข้อมูล (Retrieve)
การจัดเก็บข้อมูล
(Update) การลบข้อมูล (Delete) หรือ การเพิ่มข้อมูลเป็นต้น (Add) ฯลฯ
3.ทำหน้าที่ป้องกันความเสียหายที่จะเกิดขึ้นกับข้อมูลภายในฐานข้อมูล
โดยจะคอยตรวจสอบว่าคำสั่งใดที่สามารถทำงานได้และคำสั่งใดที่ไม่สามารถทำได้
4.ทำหน้าที่รักษาความสัมพันธ์ของข้อมูลภายในฐานข้อมูลให้มีความถูกต้องอยู่เสมอ
5.ทำหน้าที่เก็บรายละเอียดต่าง ๆ ที่เกี่ยวข้องกับข้อมูลภายในฐานข้อมูลไว้ใน
data dictionary ซึ่งรายละเอียดเหล่านี้มักจะถูกเรียกว่า "ข้อมูลของข้อมูล"
(Meta Data)
6.ทำหน้าที่ควบคุมให้ฐานข้อมูลทำงานได้อย่างถูกต้องและมีประสิทธิภาพ
ฐานข้อมูลทรัพยากรบุคคลที่มีหลายมุมมอง
DBMS ช่วยลดข้อมูลซ้ำซ้อนและไม่สอดคล้องกันโดยทำให้องค์กรสามารถจัดการข้อมูลการใช้และความปลอดภัยจากส่วนกลางได้ การจัดเก็บข้อมูลตลอดทั้งองค์กรทำได้ง่ายขึ้นเนื่องจากข้อมูลจะถูกนำเสนอต่อผู้ใช้ว่าอยู่ในตำแหน่งเดียวมากกว่าการแยกส่วนในหลาย ๆ ระบบและไฟล์ ภาพประกอบที่นี่มีสองมุมมองที่เป็นไปได้ซึ่งเป็นที่สนใจของผู้เชี่ยวชาญด้านประโยชน์และเป็นที่สนใจของสมาชิกในแผนกบัญชีเงินเดือนของบริษัท
ทำไมเป็นระบบการจัดการฐานข้อมูลเชิงสัมพันธ์จึงมีประสิทธิภาพ
ประเภทของระบบการจัดการฐานข้อมูลที่ได้รับความนิยมมากที่สุดในปัจจุบันสำหรับเครื่องพีซีและคอมพิวเตอร์ขนาดใหญ่และเครื่องเมนเฟรมก็คือระบบจัดการฐานข้อมูลเชิงสัมพันธ์ ฐานข้อมูลเชิงสัมพันธ์แสดงข้อมูลเป็นตารางสองมิติ (เรียกว่า relations) ตารางหรือความสัมพันธ์อาจเรียกว่าไฟล์ แต่ละตารางมีข้อมูลเกี่ยวกับเอนทิตีและแอตทริบิวต์ MicrosoftAccess เป็นระบบจัดการฐานข้อมูลเชิงสัมพันธ์สำหรับระบบเดสก์ท็อปขณะที่ DB2, Oracle Database และ Microsoft SQL Server เป็นระบบการจัดการฐานข้อมูลเชิงสัมพันธ์สำหรับเมนเฟรมขนาดใหญ่และคอมพิวเตอร์ขนาดกลาง MySQL เป็นโอเพนซอร์สที่เป็นที่นิยมระบบการจัดการฐานข้อมูล
ตารางฐานข้อมูลเชิงสัมพันธ์
ฐานข้อมูลเชิงสัมพันธ์จัดข้อมูลในรูปแบบของตารางสองมิติ ภาพประกอบที่นี่มีตารางสำหรับเอนทิตี SUPPLIER และ PART แสดงวิธีการแสดงแต่ละเอนทิตีและแอตทริบิวต์ Supplier_Number เป็นคีย์หลักสำหรับตาราง SUPPLER และคีย์ต่างประเทศสำหรับตาราง PART
ความสามารถในการบริหารระบบฐานข้อมูล
DBMS มีความสามารถและเครื่องมือสำหรับจัดการและการเข้าถึงข้อมูลในฐานข้อมูลสิ่งที่สำคัญที่สุดคือ คำอธิบายข้อมูล และภาษาการจัดการข้อมูล DBMS มีเครื่องมือสำหรับการเข้าถึงและจัดการข้อมูลในฐานข้อมูล ภาษาการจัดการข้อมูลถูกใช้เพื่อเพิ่ม แก้ไข ลบ และดึงข้อมูลในฐานข้อมูล
ตัวอย่างของแบบสอบถาม
แผนผังความสัมพันธ์และความสัมพันธ์เชิงนิติบุคคล
การออกแบบฐานข้อมูล ฐานข้อมูลจำเป็นต้องใช้ทั้งการออกแบบแนวคิด และการออกแบบทางกายภาพการออกแบบฐานข้อมูลเป็นแนวคิดหรือตรรกะเป็นรูปแบบนามธรรมของฐานข้อมูลจากมุมมองทางธุรกิจในขณะที่การออกแบบทางกายภาพแสดงให้เห็นว่าฐานข้อมูลเป็นจริงในการจัดเก็บข้อมูลแบบตรงอย่างไร อุปกรณ์การสร้างแบบจำลองเป็นกระบวนการสร้างโครงสร้างข้อมูลขนาดเล็กเสถียรและมีความยืดหยุ่นและปรับตัวได้จากกลุ่มข้อมูลที่ซับซ้อนเรียกว่า แผนผังความสัมพันธ์เอนทิตี (ERD) เป็นแบบข้อมูลที่นักออกแบบฐานข้อมูลจัดทำเอกสารรูปแบบข้อมูลของตนเป็นแผนผัง ER แสดงความสัมพันธ์ระหว่างหน่วยงานในฐานข้อมูล
ความสัมพันธ์ที่ไม่ถูกต้องสำหรับการสั่งซื้อ
เครื่องมือหลักและเทคโนโลยีสำหรับการเข้าถึงข้อมูลจากฐานข้อมูลเพื่อปรับปรุงประสิทธิภาพและการตัดสินใจทางธุรกิจคืออะไร
ธุรกิจใช้ฐานข้อมูลเพื่อติดตามธุรกรรมพื้นฐานและต้องมีฐานข้อมูลเพื่อให้ข้อมูลที่จะช่วยให้ บริษัท ดำเนินธุรกิจได้อย่างมีประสิทธิภาพมากขึ้นและช่วยให้ผู้จัดการและพนักงานสามารถตัดสินใจได้ดียิ่งขึ้น
ข้อมูลส่วนใหญ่ที่รวบรวมโดยองค์กรต่างๆเคยเป็นข้อมูลการทำธุรกรรมที่สามารถพอดีกับแถวและคอลัมน์ของระบบการจัดการฐานข้อมูลเชิงสัมพันธ์ขณะนี้เรากำลังเป็นพยานถึงการระเบิดข้อมูลจากการเข้าชมเว็บข้อความอีเมลและเนื้อหาโซเชียลมีเดีย (ทวีตข้อความสถานะ ) หรือจากระบบการซื้อขายทางอิเล็กทรอนิกส์ ข้อมูลเหล่านี้อาจไม่มีโครงสร้างหรือกึ่งโครงสร้างดังนั้นจึงไม่เหมาะสำหรับผลิตภัณฑ์ฐานข้อมูลเชิงสัมพันธ์ที่จัดระเบียบข้อมูลในรูปแบบของคอลัมน์และแถว
ความท้าทายของข้อมูลขนาดใหญ่
ตอนนี้เราใช้ข้อมูลขนาดใหญ่เพื่ออธิบายชุดข้อมูลเหล่านี้พร้อมกับไดรฟ์ข้อมูลที่ใหญ่เกินกว่าที่ DBMS ทั่วไปจะสามารถจับเก็บและวิเคราะห์ได้ ข้อมูลขนาดใหญ่มักหมายถึงข้อมูลในช่วงของ petabyte และ exabyte หรืออีกนัยหนึ่งนั่นคือพันล้านล้านรายการจากแหล่งข้อมูลอื่น ข้อมูลขนาดใหญ่ผลิตในปริมาณที่มากขึ้นและมากขึ้นอย่างรวดเร็วกว่าข้อมูลแบบเดิม ธุรกิจมีความสนใจในข้อมูลขนาดใหญ่เนื่องจากสามารถเปิดเผยรูปแบบและความผิดปกติที่น่าสนใจมากกว่าชุดข้อมูลขนาดเล็กที่มีศักยภาพในการให้ข้อมูลเชิงลึกใหม่เกี่ยวกับพฤติกรรมของลูกค้ารูปแบบสภาพอากาศการทำตลาดการเงินหรือปรากฏการณ์อื่น ๆ ธุรกิจมีความสนใจในข้อมูลขนาดใหญ่เพราะสามารถเปิดเผยรูปแบบและความผิดปกติที่น่าสนใจมากขึ้นด้วยศักยภาพในการให้ข้อมูลเชิงลึกใหม่เกี่ยวกับพฤติกรรมของลูกค้ารูปแบบสภาพอากาศการทำตลาดการเงินหรือปรากฏการณ์อื่น ๆ
โครงสร้างทางความคิดทางธุรกิจ
คลังข้อมูล (Data Warehouses) คือ ฐานข้อมูลขนาดยักษ์ ที่รวบรวมฐานข้อมูลจากหลายแหล่งหลายช่วงเวลา ซึ่งอาจมี schema แตกต่างกัน มาไว้รวม ณ ที่เดียวกัน (และใช้ schema เดียวกัน)
ตลาดข้อมูล (Data Mart) คือ คลังข้อมูลที่มีขนาดเล็กถูกออกแบบมาเพื่อใช้ในหน่วย ธุรกิจเชิงกลยุทธ์ (strategic business unit, SBU) หรือในแผนกหนึ่ง ๆ เป็นส่วนย่อยของ Data Warehouse เปรียบเสมือนคลังข้อมูลขนาดเล็กที่มีลักษณะเฉพาะ มีขนาดของข้อมูลและค่าใช้จ่ายต่ำ ประโยชน์ที่เห็นได้อย่างชัดเจน คือ การจัดทำคลังข้อมูลใช้เวลาสั้น การนำไปประยุกต์ใช้ในการตัดสินใจก็สะดวกกว่าการใช้คลังข้อมูลกลางขององค์การ , การติดตั้งใช้งานจะใช้เวลาน้อยกว่ามาก (มักจะน้อยกว่า 90 วัน) เป็นแบบ local แทนที่จะเป็นแบบควบคุมจากศูนย์กลาง (central control) (เมื่อเปรียบเทียบในเชิง ความสามารถการใช้งานของกลุ่ม) , การตอบสนองทำได้เร็ว ง่ายต่อการทำความเข้าใจ และเรียนรู้ได้ง่ายกว่าคลังข้อมูลที่ใช้ทั่ว ทั้งองค์กร (enterprise wide data warehouse )
Hadoop
1. ความสามารถในการรองรับการจัดเก็บข้อมูลขนาดใหญ่มากๆทุกประเภทได้อย่างรวดเร็ว ด้วยปริมาณข้อมูลในปัจจุบันที่เพิ่มขึ้นอย่างต่อเนื่อง
โดยเฉพาะจากแหล่งอย่างโซเชี่ยลมีเดีย และ Internet of Things (IoT) คุณสมบัติข้อนี้ของ Hadoop
จึงสำคัญมาก
2. พลังแห่งการประมวลผล ด้วยรูปแบบการประมวลผลที่รวดเร็วจากการทำงานแบบ Cluster
จึงทำให้ Hadoop กลายเป็นแพลตฟอร์มที่เป็นที่นิยมอย่างกว้างขวางในปัจจุบัน
3. มีระบบรองรับความผิดพลาด ด้วยการทำงานแบบ Cluster เมื่อ node
ใด node หนึ่งพังลง
งานที่มีการทำอยู่ในระบบจะถูกส่งไปยัง node อื่นทันทีเพื่อให้เกิดความต่อเนื่อง
รวมถึงระบบเองยังมีการทำก็อปปี้ข้อมูลเก็บไว้แบบอัตโนมัติหลายชุดอีกด้วย
4. ความยืดหยุ่นในการใช้งาน Hadoop แตกต่างจากระบบฐานข้อมูลดั้งเดิม
ที่ต้องมีการแยกประเภทของข้อมูลคร่าวๆก่อนการจัดเก็บ สำหรับ Hadoop เราจะเก็นข้อมูลประเภทไหนก็ได้ มากเท่าไหร่ก็ได้ทันที
โดยไม่ต้องมีการแยกประเภทล่วงหน้าแถมยังสามารถเลือกได้อีกว่าจะเอาไปใช้งานด้านใด
5. ต้นทุนต่ำ เพราะเป็นแพลตฟอร์มแบบ open-source จึงสามารถนำมาใช้งานได้ฟรี!
6. ความสามารถในการขยายการรองรับข้อมูลได้ไม่สิ้นสุด แค่เพิ่ม node เข้าไปก็สามารถรองรับการจัดเก็บข้อมูลไปได้เรื่อยๆตามแต่เราต้องการ
In‐Memory Computing
การประมวลผลข้อมูลในหน่วยความจำทำให้ชุดข้อมูลจำนวนมากมีขนาดใหญ่ขึ้นซึ่งมีขนาดเท่ากับข้อมูลของคลังข้อมูลหรือคลังข้อมูลขนาดเล็กเพื่อให้อยู่ในหน่วยความจำทั้งหมด การคำนวณทางธุรกิจแบบซับซ้อนที่ใช้เวลาหลายชั่วโมงหรือหลายวันสามารถทำได้ภายในไม่กี่วินาทีและสามารถทำได้แม้กระทั่งบนอุปกรณ์มือถือ (ดูเซสชันเชิงโต้ตอบเกี่ยวกับเทคโนโลยี)
โครงสร้างพื้นฐานทางธุรกิจอัจฉริยะร่วมสมัย
โครงสร้างพื้นฐานธุรกิจอัจฉริยะร่วมสมัยมีความสามารถและเครื่องมือในการจัดการและวิเคราะห์ข้อมูลจำนวนมากและข้อมูลประเภทต่างๆจากหลายแหล่ง เครื่องมือค้นหาและการรายงานที่ใช้งานง่ายสำหรับผู้ใช้ทางธุรกิจแบบสบาย ๆ และเครื่องมือการวิเคราะห์ที่มีความซับซ้อนสำหรับผู้ใช้ที่มีอำนาจสูงจะรวมอยู่ด้วย
การวิเคราะห์ ความสัมพันธ์รูปแบบแนวโน้ม
เครื่องมือวิเคราะห์ที่มีรายละเอียดเพิ่มเติมเกี่ยวกับการวิเคราะห์ข้อมูลทางธุรกิจและแอปพลิเคชันมีดังนี้ Online Analytical Processing (OLAP) คือเทคโนโลยีที่ใช้ในการจัดระเบียบฐานข้อมูลธุรกิจขนาดใหญ่และสนับสนุนข่าวกรองธุรกิจ ฐานข้อมูล OLAP แบ่งออกเป็นคิวบ์หนึ่งคิวบ์ขึ้นไป และแต่ละคิวบ์มีการจัดระเบียบและออกแบบโดยผู้ดูแลคิวบ์เพื่อให้เหมาะกับวิธีที่คุณเรียกใช้และวิเคราะห์ข้อมูล เพื่อให้สามารถสร้างและใช้รายงาน PivotTable และรายงาน PivotChart ที่คุณต้องการได้ง่าย
การทำเหมืองข้อมูล (อังกฤษ: data mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูล (อังกฤษ: Knowledge Discovery in Databases - KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ
แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ
การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์
การทำเหมืองเว็บ (อังกฤษ: web mining) เป็นส่วนหนึ่งของการทำเหมืองข้อมูล มักจะนำมาใช้ในพื้นที่ต่อไปนี้ ทำการคัดกรองสารสนเทศ, surveillance, mining of web- access logs สำหรับทำการวิเคราห์ผู้ใช้, assisted browsing, และ การบริการต่าง ๆ ที่ต่อสู้กับอาชญากรรมบนอินเทอร์เน็ต Web mining สามารถรองรับฟังก์ชันต่อไปนี้
1.Resource discovery ระบุเอกสารหรือการบริการบน Web ที่ไม่คุ้นเคย
2.Information extraction แยกสารสนเทศตามที่กำหนดจาก Web โดยอัตโนมัติ
3.Generalization เปิดเผยรูปแบบทั่ว ๆ ไปในแต่ละ Web site ส่วนตัว หรือ ข้าม Web site
ฐานข้อมูลและเว็บ
ขณะนี้หลาย บริษัท ใช้ เว็บ เพื่อทำให้ข้อมูลในฐานข้อมูลภายในของลูกค้าบางส่วนสามารถใช้งานได้กับลูกค้าและคู่ค้าทางธุรกิจ ในสภาพแวดล้อมแบบไคลเอ็นต์ / เซิร์ฟเวอร์ DBMS อยู่บนคอมพิวเตอร์เฉพาะที่เรียกว่าเซิร์ฟเวอร์ฐานข้อมูล DBMS จะรับคำขอ SQL และให้ข้อมูลที่จำเป็น มิดเดิลแวร์ส่งข้อมูลจากฐานข้อมูลภายในขององค์กรกลับไปยังเว็บเซิร์ฟเวอร์เพื่อส่งมอบในรูปแบบของเว็บเพจให้กับผู้ใช้
การเชื่อมโยงฐานข้อมูลภายในไปยังเว็บ
ไม่มีความคิดเห็น:
แสดงความคิดเห็น