Thông tin chung Mã học phần: MAT6214Học phần tiên quyết: Phát triển phần mềm nâng cao cho tính toán khoa học Chuyên ngành: Khoa học dữ liệu Tóm tắt môn học Học phần có mục tiêu trang bị kiến thức về những nguyên lí và cách tổ chức hệ thống cơ sở dữ liệu phân tán và song song, và các hệ thống xử lí dữ liệu. Nội dung chính của học phần gồm vấn đề phân mảnh và phân phối dữ liệu, truy vấn dữ liệu phân tán, tối ưu hóa xử lí truy vấn phân tán, tính tin cậy và các giao thức thực thi, tự sao chép dữ liệu, quản lí dữ liệu trong các môi trường phân tán thực tế. Kết thúc học phần, học viên nắm được các kiến thức về những vấn đề cơ bản về quản lí dữ liệu phân tán, có những kiến thức tổng quan đối sánh về những hệ thống và kĩ thuật liên quan đang được sử dụng rộng rãi hiện nay. Tài liệu tham khảo: Tài liệu bắt buộc Bài giảng của giảng viên Writen I.H., Frank E. (2005), Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). Elsevier Inc. Holden Karu, Andy Konwinski, Patrick Wendell, Matei Zaharia (2015), Learning Spark: Lightening-Fast Big Data Analysis, O'Reilly Media Tài liệu tham khảo thêm Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills (2015), Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media