Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

pdf 30 trang ngocly 220
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tin_hoc_ung_dung_bai_4_cac_phep_bien_doi_du_lieu.pdf

Nội dung text: Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

  1. TIN HỌC ỨNG DỤNG PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI SPSS BÀI 4: CÁC PHÉP BIẾN ĐỔI DỮ LIỆU
  2. MỤC TIÊU u • Hiểu và áp dụng được các phương pháp biến đổi c ứ dữ liệu phù hợp với yêu cầu nghiên cứu. i ê n n g h • Hiểu và áp dụng được các phương pháp xử lý lỗi i ệ u ữ l phát sinh trong quá trình nhập liệu. i d đ ổ • Tổ chức và làm việc nhóm xây dựng bảng câu hỏi i ế n khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu. g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  3. NỘI DUNG u • Xử lý dữ liệu trên biến c ứ i ê n – Mã hóa biến với công cụ Recode n g h – Chuyển định dạng của biến i ệ u ữ l i d – Tính toán giá trị của biến với công cụ Compute đ ổ – Xử lý câu hỏi có nhiều lựa chọn trả lời i ế n g : B • Làm sạch dữ liệu ụ n g d – Dữ liệu lỗi và các biện pháp khắc phục ứ n h ọ c – Các phương pháp làm sạch dữ liệu i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  4. CÁC PHÉP BIẾN ĐỔI DỮ LIỆU u • Mục đích c ứ i ê n – Xử lý sai sót trong quá trình mã hóa, nhập liệu n g h – Biến đổi dữ liệu để phát hiện mối quan hệ giữa các biến i ệ u ữ l i d • Phân loại đ ổ i ế n – Xử lý dữ liệu trên biến g : B – Làm sạch dữ liệu ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  5. XỬ LÝ DỮ LIỆU TRÊN BIẾN u • Mã hóa biến với công cụ Recode c ứ i ê n • Chuyển định dạng của biến n g h i ệ u • Tính toán giá trị của biến với công cụ Compute ữ l i d • Xử lý câu hỏi có nhiều lựa chọn trả lời đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  6. MÃ HÓA BIẾN VỚI RECODE u • Mục đích c ứ i ê n – Biến đổi trị số dữ liệu bằng cách mã hóa lại chúng n g h i ệ u • Điều kiện áp dụng ữ l i d – Giảm số biểu hiện của một biến định tính xuống chỉ còn đ ổ hai hoặc ba loại biểu hiện cơ bản i ế n – Chuyển biến định lượng thành biến định tính g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  7. MÃ HÓA BIẾN VỚI RECODE u • Quy trình thực hiện c ứ i ê n – Gọi thực hiện chức năng Transform -> Recode -> Into n g h Different Variables (giữ nguyên biến gốc, tạo biến mới) i ệ u ữ l – Chọn biến muốn mã hóa lại i d đ ổ – Đặt tên và nhãn cho biến mới, nhấn nút Change để xác i ế n nhận g : B ụ n – Nhấn nút Old and New Values để xác định sự chuyển g d đổi giá trị giữa biến cũ và biến mới ứ n – Gán các nhãn giá trị cho biến vừa tạo h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  8. những bước chập chững vào thế giới số T i n h ọ c ứ n g d ụ n g : B i ế n đ ổ i d ữ l i ệ u n g h i ê n c ứ u MÃ MÃ HÓABIẾN VỚI RECODE namth@buh.edu.vn
  9. CHUYỂN ĐỊNH DẠNG CỦA BIẾN u • Mục đích c ứ i ê n – Chuyển biến dạng phân loại Category nhiều trị số thành n g h biến phân loại Dichotomy có hai trị số i ệ u ữ l • Ví dụ i d đ ổ – BankAccount là biến phân loại, cho biết tên ngân hàng i ế n quản lý tài khoản lương của người được hỏi g : B ụ n – SalaryThrBank là biến phân loại, cho biết người được g d hỏi có nhận lương qua ngân hàng VCB hay không ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  10. CHUYỂN ĐỊNH DẠNG CỦA BIẾN u • Quy trình thực hiện c ứ i ê n – Gọi thực hiện chức năng Transform -> Count n g h – Khai báo tên và nhãn của biến Dichotomy i ệ u ữ l i d – Cung cấp (các) biến Category có liên quan tới biến đ ổ Dichotomy i ế n – Cung cấp trị số mã hóa của (các) biến Category có liên g : B ụ n quan tới biến Dichotomy g d – Gán nhãn các giá trị của biến Dichotomy ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  11. những bước chập chững vào thế giới số T i n h ọ c ứ n g d ụ n g : B i ế n đ ổ i d ữ l i ệ u n g h i ê n c ứ u CHUYỂN ĐỊNHDẠNGCỦABIẾN namth@buh.edu.vn
  12. LÀM SẠCH DỮ LIỆU u • Dữ liệu lỗi và các biện pháp khắc phục c ứ i ê n • Các phương pháp làm sạch dữ liệu n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  13. DỮ LIỆU LỖI u • Lỗi mã hóa dữ liệu c ứ i ê n • Lỗi nhập dữ liệu n g h i ệ u • Lỗi về tính nhất quán của dữ liệu ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  14. LỖI MÃ HÓA DỮ LIỆU u • Mô tả c ứ i ê n – Dữ liệu nhập không phản ánh đúng ý nghĩa của thông n g h tin do người được hỏi cung cấp i ệ u ữ l • Nguyên nhân i d đ ổ – Mã hóa sai thông tin do người được hỏi cung cấp i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  15. LỖI NHẬP DỮ LIỆU u • Mô tả c ứ i ê n – Dữ liệu nhập không đúng với bảng mã theo thông tin do n g h người được hỏi cung cấp i ệ u ữ l • Nguyên nhân i d đ ổ – Mã đọc sai i ế n – Mã đọc đúng nhưng lỗi do đánh máy g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  16. LỖI NHẤT QUÁN DỮ LIỆU u • Mô tả c ứ i ê n – Không nhất quán giữa các câu trả lời của cùng một đối n g h tượng được hỏi i ệ u ữ l • Nguyên nhân i d đ ổ – Lỗi mã hóa dữ liệu i ế n – Lỗi nhập dữ liệu g : B ụ n g d – Lỗi do đối tượng được hỏi cung cấp sai thông tin ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  17. KHẮC PHỤC LỖI MÃ HÓA VÀ NHẬP LIỆU u • Nhập toàn bộ số liệu hai lần bởi hai người độc lập c ứ i ê n • Nhập toàn bộ số liệu một lần, nhập lần hai 20% bộ n g h số liệu (chọn ngẫu nhiên) bởi hai người độc lập i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  18. LÀM SẠCH DỮ LIỆU u • Sự cần thiết c ứ i ê n – Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu, n g h nhập dữ liệu i ệ u ữ l – Đảm bảo tính nhất quán của dữ liệu i d đ ổ • Các biện pháp ngăn ngừa i ế n – Thiết kế bảng câu hỏi rõ ràng, dễ trả lời g : B ụ n g d – Chọn lọc và huấn luyện điều tra viên ứ n – Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  19. LÀM SẠCH DỮ LIỆU u • Kết hợp sử dụng MS Excel và SPSS để phát hiện, c ứ xử lý lỗi và làm sạch dữ liệu i ê n n g h – Sử dụng Excel (Max, Min, Auto Filter, Scatter) i ệ u ữ l – Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots) i d đ ổ • Quy trình thực hiện i ế n g : B – Dùng công cụ để phát hiện giá trị “lạ” của mỗi biến ụ n g d – Tìm bản ghi chứa giá trị “lạ” ứ n – Chỉnh sửa/loại bỏ bản ghi chứa giá trị lạ h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  20. LÀM SẠCH DỮ LIỆU VỚI MS EXCEL u • Ví dụ c ứ i ê n – Sử dụng hàm MIN, MAX đối với biến Age n g h – Sử dụng công cụ AutoFilter đối với biến Gender i ệ u ữ l i d – Sử dụng đồ thị Scatter đối với biến Childrens đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  21. LÀM SẠCH DỮ LIỆU VỚI MS EXCEL u • Sử dụng hàm MIN, MAX đối với biến Age c ứ i ê n – Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18 n g h đến 60 i ệ u ữ l – Giá trị nằm ngoài vùng 18 – 60 là dữ liệu lỗi i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  22. LÀM SẠCH DỮ LIỆU VỚI MS EXCEL u • Sử dụng công cụ AutoFilter đối với biến Gender c ứ i ê n – Biến Gender chỉ có hai giá trị Male và Female, những n g h giá trị khác (hoặc để trống) là lỗi nhập liệu i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  23. LÀM SẠCH DỮ LIỆU VỚI MS EXCEL u • Sử dụng đồ thị Scatter đối với biến Age c ứ i ê n n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  24. LÀM SẠCH DỮ LIỆU VỚI MS EXCEL u • Sử dụng đồ thị Scatter đối với biến Age c ứ i ê n n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  25. LÀM SẠCH DỮ LIỆU VỚI SPSS u • Ví dụ c ứ i ê n – Sử dụng công cụ Frequencies đối với biến Gender n g h – Sử dụng công cụ Charts đối với biến Literacy i ệ u ữ l i d – Sử dụng công cụ Histogram đối với biến Age đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  26. LÀM SẠCH DỮ LIỆU VỚI SPSS u • Sử dụng công cụ Frequencies đối với biến Gender c ứ i ê n n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  27. LÀM SẠCH DỮ LIỆU VỚI SPSS u • Sử dụng công cụ Frequencies đối với biến Gender c ứ i ê n n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  28. LÀM SẠCH DỮ LIỆU VỚI SPSS u • Sử dụng công cụ Charts đối với biến Literacy c ứ i ê n n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  29. LÀM SẠCH DỮ LIỆU VỚI SPSS u • Sử dụng công cụ Charts đối với biến Literacy c ứ i ê n n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn
  30. LÀM SẠCH DỮ LIỆU VỚI SPSS u • Sử dụng công cụ Histogram đối với biến Age c ứ i ê n n g h i ệ u ữ l i d đ ổ i ế n g : B ụ n g d ứ n h ọ c i n T những bước chập chững vào thế giới số namth@buh.edu.vn