Khai phá dữ liệu song song và phân tán

Thông tin chung
Mã học phần: 
MAT6214
Chuyên ngành: 
Khoa học dữ liệu
Tóm tắt môn học

Học phần có mục tiêu trang bị kiến thức về những nguyên lí và cách tổ chức hệ thống cơ sở dữ liệu phân tán và song song, và các hệ thống xử lí dữ liệu. Nội dung chính của học phần gồm vấn đề phân mảnh và phân phối dữ liệu, truy vấn dữ liệu phân tán, tối ưu hóa xử lí truy vấn phân tán, tính tin cậy và các giao thức thực thi, tự sao chép dữ liệu, quản lí dữ liệu trong các môi trường phân tán thực tế. Kết thúc học phần, học viên nắm được các kiến thức về những vấn đề cơ bản về quản lí dữ liệu phân tán, có những kiến thức tổng quan đối sánh về những hệ thống và kĩ thuật liên quan đang được sử dụng rộng rãi hiện nay.

Tài liệu tham khảo:

  • Tài liệu bắt buộc
    • Bài giảng của giảng viên
    • Writen I.H., Frank E. (2005), Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). Elsevier Inc.
    • Holden Karu, Andy Konwinski, Patrick Wendell, Matei Zaharia (2015), Learning Spark: Lightening-Fast Big Data Analysis, O'Reilly Media
  • Tài liệu tham khảo thêm
    • Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills (2015), Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media