Digital Transformation #26: Năng lực phân tích dữ liệu không chỉ xoay quanh công cụ và quy trình

Bất kể trong ngành nào, dữ liệu luôn là một nguồn tài nguyên quan trọng trong quá trình đưa ra quyết định kinh doanh, hoạch định chiến lược của mỗi doanh nghiệp. Do vậy, công ty hoặc cá nhân nào có thể trang bị khả năng lưu trữ, xử lý và phân tích dữ liệu tốt sẽ có lợi thế nhất định. Vậy những yếu tố cần thiết nào cần được đầu tư để đào tạo và phát triển năng lực phân tích dữ liệu cho cá nhân, đội ngũ của một công ty?

Brands Vietnam đã có dịp trao đổi với bà Mai Thị Kim Ngân, Thạc sĩ Quản trị kinh doanh và Thạc sĩ Hệ thống thông tin quản lý, đã có nhiều năm kinh nghiệm làm việc các công ty như Prudential, Shinhan Finance và gần đây nhất là chuyên gia phân tích dữ liệu tại VietCredit để tìm hiểu sâu hơn về các điều kiện cần và đủ cho việc nâng cao năng lực phân tích dữ liệu của doanh nghiệp.

* Theo bà, năng lực phân tích dữ liệu của một doanh nghiệp sẽ bao gồm những yếu tố nào?

Bà Kim Ngân: Theo tôi, năng lực phân tích dữ liệu sẽ bao gồm 3 yếu tố: quy trình, công cụ và con người. Ba yếu tố này trả lời cho 3 câu hỏi: Phân tích dữ liệu như thế nào? Sử dụng công cụ nào để phân tích? Và cần nhân sự với kỹ năng và tư duy như thế nào để phân tích dữ liệu?

Bà Mai Thị Kim Ngân từng có nhiều năm kinh nghiệm làm việc các công ty như Prudential, Shinhan Finance và VietCredit.

Đầu tiên, theo kinh nghiệm của tôi một quy trình phân tích dữ liệu thường bao gồm 6 bước: (1) Xác định vấn đề, (2) Chuẩn bị dữ liệu, (3) Trực quan hoá dữ liệu, (4) Đào sâu và (5) Mô tả dữ liệu, (6) Đưa ra kết luận, những dự đoán và đề xuất dựa trên dữ liệu đã được phân tích. Nghĩa là, sau khi xác định rõ những vấn đề hiện tại và yêu cầu của doanh nghiệp, khách hàng, các chuyên viên phân tích sẽ bắt đầu khoanh vùng và thu thập những dữ liệu cần thiết. Tiếp đó, bước trực quan hoá dữ liệu nhằm giúp business stakeholder thấy được những xu hướng thông qua các bản báo cáo phân tích, đào sâu. Từ những thông tin đó, các chuyên viên sẽ phân tích trên nhiều khía cạnh hơn để dự đoán, đề xuất thay đổi trong tương lai.

Về mặt công cụ, ở từng bước trong quy trình phân tích đều sẽ cần những loại công cụ khác nhau. Cụ thể, ở bước chuẩn bị dữ liệu các chuyên viên phân tích dữ liệu thường dùng SQL Code, một ngôn ngữ lập trình giúp truy vấn cơ sở dữ liệu, giúp lấy dữ liệu từ nguồn dữ liệu lớn ban đầu. Dữ liệu thường được doanh nghiệp lưu trữ trên server phần cứng hoặc serverless – dữ liệu được lưu trữ thông qua những công ty hỗ trợ cho thuê không gian lưu trữ đám mây như Google, Amazon, Microsoft. Hay ở bước mô tả, đào sâu và trực hoá dữ liệu, các doanh nghiệp phân tích dữ liệu thường sử dụng những công cụ như Power BI, Tableau, Google Data Studio... Trước đây, Excel cũng là một công cụ hữu ích cho việc trình bày dữ liệu. Tuy nhiên, khi nhu cầu về dữ liệu tăng nhanh và kho dữ liệu ngày một lớn thì công cụ này không còn đủ công năng để hỗ trợ.

Về yếu tố con người, năng lực phân tích dữ liệu thể hiện ở tư duy logic, hướng đến kết quả. Đơn cử có thể kể đến việc thấu hiểu lĩnh vực kinh doanh và quy trình vận hành cơ bản của doanh nghiệp để có thể xác định rõ nhu cầu và vấn đề của các stakeholders. Ngoài ra, cũng có thể kể đến các kỹ năng như kỹ năng giao tiếp, phân tích, tổng hợp, thành thạo các công cụ tôi kể trên.

* Đi sâu hơn vào yếu tố con người, một chuyên viên phân tích dữ liệu cần trang bị những gì để có thể hoàn thành tốt công việc của mình?

Bà Kim Ngân: Dựa trên quan sát và kinh nghiệm của bản thân, tôi rút ra được 5 yếu tố khá quan trọng và cần thiết cho một chuyên viên phân tích dữ liệu bao gồm: (1) Kĩ năng về kĩ thuật, công nghệ, (2) Kiến thức thống kê, (3) Kĩ năng giao tiếp, (4) Tư duy giải quyết vấn đề và (5) Kiến thức về business domain.

Đầu tiên là các kĩ năng về mặt kĩ thuật, công nghệ. Một chuyên viên phân tích dữ liệu sẽ phải sử dụng nhiều công cụ khác nhau trong quá trình phân tích dữ liệu. Do đó, sử dụng thành thạo những công cụ hiện có của công ty là yếu tố bắt buộc. Các bạn chuyên viên phân tích có thể trang bị kiến thức và trau dồi kĩ năng sử dụng các nền tảng lưu trữ đám mây và gói công cụ phổ biến đi kèm như Google Data Studio thuộc Google, SQL server hoặc Power BI của Microsoft.

Chuyên viên phân tích dữ liệu sẽ phải sử dụng nhiều công cụ khác nhau trong quá trình phân tích dữ liệu
Nguồn: crm

Thứ hai là kiến thức cơ bản về thống kê. Theo tôi, các chuyên viên phân tích không bắt buộc phải học các chương trình chuyên ngành thống kê mà cần biết cách tổng hợp dữ liệu theo ý nghĩa thống kê. Ví dụ kiểu dữ liệu bạn đang phân tích là kiểu Ratio thì các thao tác cần thực hiện là tính sum hoặc tính trung vị, vẽ box slot để có thể mô tả dữ liệu, từ đó nhìn được cách các dữ liệu đang được phân phối.

Yếu tố thứ 3 là trang bị kiến thức về lĩnh vực kinh doanh liên quan. Người phân tích cần hiểu về quy trình, cách vận hành của doanh nghiệp, khách hàng. Những bản lưu trữ dữ liệu cũng đã phần nào phản ánh được quy trình vận hành và của doanh nghiệp. Chuyên viên phân tích có thể dựa vào những số liệu đó để nghiên cứu sâu hơn, hiểu rõ quy trình hơn.

Thứ 4 là kĩ năng giao tiếp. Một chuyên viên phân tích dữ liệu không chỉ ngồi trên máy, nhìn vào số liệu và phân tích mà cần thực sự hiểu được cách thức vận hành của một doanh nghiệp, từ đó hiểu được nhu cầu của doanh nghiệp và cung cấp các sản phẩm phù hợp kịp thời. Trao đổi hiệu quả sẽ là cách nhanh nhất giúp người phân tích hiểu được gốc rễ vấn đề, nhu cầu và đẩy nhanh tiến độ phân tích dữ liệu.

Một chuyên viên phân tích dữ liệu không chỉ ngồi trên máy, nhìn vào số liệu và phân tích mà cần thực sự hiểu được cách thức vận hành của một doanh nghiệp
Nguồn: Pexels

Cuối cùng, tôi đánh giá cao nhất là khả năng tư duy giải quyết vấn đề. Trong quá trình phân tích nếu phát hiện vấn đề, bản thân người phân tích cũng có thể chủ động đưa ra những ý kiến, đề xuất tư vấn thêm cho doanh nghiệp trong quá trình họ hoàn thiện các quyết định, phân tích của mình.

* Bà có thể chia sẻ một vài công cụ/ hệ thống được doanh nghiệp sử dụng trong quá trình phân tích dữ liệu vào thời điểm hiện tại? Các ưu và khuyết điểm của các công cụ/ hệ thống này là gì?

Bà Kim Ngân: Như tôi đã đề cập ở câu hỏi trước, ở từng bước trong quy trình phân tích đều sẽ cần những loại công cụ/ hệ thống khác nhau.

Đơn cử, ở bước chuẩn bị dữ liệu các chuyên viên phân tích thường lấy dữ liệu từ nguồn dữ liệu lưu trữ trên server phần cứng hoặc serverless – dữ liệu được lưu trữ thông qua những công ty hỗ trợ cho thuê không gian lưu trữ đám mây như Google, Amazon, Microsoft.

Khi bàn về việc lưu trữ trên server, vấn đề cần cân nhắc là chi phí đầu tư cho cơ sở hạ tầng để xây dựng và vận hành những server tại trụ sở. Chi phí ban đầu sẽ vô cùng lớn khi giá thành tỉ lệ thuận với cấu hình server. Dù có thể tốn chi phí ban đầu nhưng xu hướng này vẫn được nhiều tập đoàn lớn sử dụng vì dữ liệu được lưu tại văn phòng doanh nghiệp, doanh nghiệp sẽ cảm thấy an tâm hơn. Tuy nhiên, chưa chắc là lưu tại server doanh nghiệp an toàn hơn là việc lưu trữ serverless.

Những công ty hỗ trợ cho thuê không gian lưu trữ đám mây như Google, Amazon, Microsoft.
Nguồn: shastatek

Đối với việc lưu trữ serverless, ưu điểm đầu tiên là doanh nghiệp không tốn quá nhiều chi phí đầu tư ban đầu, họ chỉ cần trả đúng khoản tiền cho dữ liệu ban đầu và khoảng không gian lưu trữ đã được sử dụng. Ưu điểm thứ hai là tính toàn cầu hoá (globalization). Hiện tại, tôi quan sát thấy một số doanh nghiệp Việt Nam đã tiến ra nước ngoài. Nếu ở trụ sở của mỗi nước đều đặt một phòng server thì chi phí nhân sự vận hành sẽ rất cao. Vấn đề này được giải quyết khi doanh nghiệp chuyển lên serverless, việc quản lý cũng được tập trung hơn khi các chuyên viên ở Việt Nam vẫn có thể quản lý cơ sở dữ liệu hệ thống, lấy và lưu trữ dữ liệu từ những nơi khác.

Hay ở bước mô tả, đào sâu và trực hoá dữ liệu, các chuyên viên phân tích dữ liệu thường sử dụng Power BI, Tableau, Google Data Studio.... Trong đó, tôi sẽ bàn về ưu, nhược điểm của ba công cụ khá phổ biến là Power BI từ Microsoft, Google Data Studio và Excel.

Power BI là bộ công cụ phân tích kinh doanh thu thập và xử lý hàng nghìn thông tin trong toàn bộ tổ chức, doanh nghiệp. Tương tự Tableau, Power BI có thể kết nối với hàng trăm nguồn dữ liệu thô, đơn giản hoá việc chuẩn bị dữ liệu và quy trình xử lý phân tích đặc biệt để tạo báo cáo. Bàn về Power BI có thể thấy ưu điểm đầu tiên là sự tích hợp với bộ công cụ Microsoft 365. Những công ty trang bị trọn bộ Microsoft có thể trực tiếp sử dụng luôn công cụ trực quan hoá dữ liệu này. Khuyết điểm của công cụ này nằm ở phần chi phí. Thông thường, chi phí bản quyền của Power BI là 10 USD/tháng cho bản PRO và 20 USD/ tháng cho bản PREMIUM cho mỗi người dùng. Đối với các doanh nghiệp có nhu cầu dữ liệu lớn thì đầu tư chi phí trên đầu người như vậy là rất tốn kém. Hình dung thử nếu công ty có 1.000 nhân sự back office thì chi phí để vận hành, sử dụng công cụ này hàng tháng sẽ tốn 1 con số lớn cho doanh nghiệp.

Power BI thu thập và xử lý hàng nghìn thông tin trong toàn bộ tổ chức, doanh nghiệp
Nguồn: Power BI

Ngược lại với Power BI, Google Data Studio có ưu điểm là một công cụ miễn phí. Mặc dù Data Studio giúp trực quan hóa dữ liệu một cách hiệu quả, nhưng công cụ này không cho phép chuyên viên phân tách và có mô hình dữ liệu phức tạp. Trong trường hợp phải xử lý một lượng dữ liệu quá lớn thì khả năng xử lý khá chậm, ảnh hưởng đến hiệu suất phân tích và trực quan hoá dữ liệu của các chuyên viên. Hiện tại, Google đã có một giải pháp khác là Looker, người dùng phải trả phí. Tuy nhiên, vì chưa sử dụng nên tôi chưa thể đánh giá được ưu và nhược của công cụ này.

Google Data Studio là một công cụ miễn phí
Nguồn: makeuseofimages

Một công cụ “lão làng” khác mà tôi muốn chia sẻ là Excel, được các chuyên viên nhận định là công cụ dễ tiếp cận nhất cho những bạn chuyên viên phân tích dữ liệu mới chập chững vào nghề. Ưu điểm thứ nhất của Excel là dễ sử dụng. Ưu điểm thứ 2 nằm ở việc Excel vẫn có thể kết nối được với những server và viết code khi sử dụng các connector đặc thù. Tuy nhiên, nếu lượng dữ liệu cần phân tích quá lớn cũng sẽ dẫn đến hiện tượng xử lý chậm. Một khuyết điểm nhỏ khác là khi chia sẻ các file phân tích dưới định dạng Excel, chúng ta sẽ chia sẻ luôn raw data nằm bên dưới. Đây là một điểm khá bất tiện vì nhiều công ty không muốn chia sẻ những data core đó.

Excel công cụ dễ tiếp cận nhất cho những bạn chuyên viên phân tích dữ liệu mới chập chững vào nghề
Nguồn: Microsoft

* Doanh nghiệp nên ứng dụng quy trình (về con người, tổ chức, công cụ, văn hoá...) như thế nào để tối ưu việc xử lý và phân tích dữ liệu?

Bà Kim Ngân: Theo kinh nghiệm làm việc của mình, tôi nghĩ có 4 yếu tố về mặt con người và quy trình các doanh nghiệp có thể cân nhắc để tối ưu hoá việc xử lý dữ liệu gồm: (1) Trao quyền cho nhân sự phụ trách, (2) Tăng cường đào tạo kĩ năng chuyên môn, (3) Xây dựng văn hoá dữ liệu cho toàn công ty cũng như (4) Tránh phân tán dữ liệu.

Đối với một doanh nghiệp có nhu cầu xử lý, phân tích dữ liệu thì trước tiên họ cần trao quyền cho các nhân viên, tức họ phải cho nhân viên phụ trách có quyền tiếp cận được những nguồn dữ liệu cần thiết. Có nhiều trường hợp dữ liệu được lưu trữ trong những hệ thống phức tạp và các bạn chuyên viên phân tích không được trao quyền truy cập sẽ làm chậm quá trình lấy, chuẩn bị, trực quan hoá và phân tích dữ liệu.

Ngoài trao quyền, các doanh nghiệp có thể cân nhắc sử dụng những công cụ thao tác đơn giản lấy dữ liệu như Google Big Query. Người dùng chỉ cần vài thao tác đăng nhập trên web là có thể tiếp cận dữ liệu ngay, không cần phải cài đặt hay mua bản quyền ban đầu, mà có thể “pay as you go” – sử dụng bao nhiêu trả chi phí bấy nhiêu. Có thể mọi người nghĩ sử dụng SQL Code khá phức tạp nhưng thực tế thì một chuyên viên phân tích có thể tự lấy dữ liệu cơ bản chỉ sau một vài buổi training. Các doanh nghiệp có thể mở những lớp đào tạo để nhân viên có thể hiểu rõ về công cụ cũng như quy trình xử lý dữ liệu. Điều này giúp nhân viên tiết kiệm thời gian và chi phí khi đi học bên ngoài, đồng thời cũng mang lại những lợi ích lâu dài về mặt hiệu suất cho công ty.

Yếu tố thứ ba là doanh nghiệp cần xây dựng văn hoá dữ liệu xuyên suốt trong nội bộ công ty. Tôi quan sát thấy vẫn có những vị CEO người nước ngoài có thể tự sử dụng Power BI, đọc và phân tích biểu đồ để trực tiếp ra quyết định mà không cần đợi trợ lý hoặc đội ngũ hỗ trợ. Tuy điều này ở Việt Nam hiện nay khá hiếm.

Đối với một doanh nghiệp có nhu cầu xử lý, phân tích dữ liệu thì trước tiên họ cần trao quyền cho các nhân viên, tức họ phải cho nhân viên phụ trách có quyền tiếp cận được những nguồn dữ liệu cần thiết.

Một yếu tố khác là chúng ta nên lưu ý là tránh phân tán dữ liệu. Trường hợp dữ liệu bị phân tán là khi mỗi phòng ban chỉ giữ dữ liệu liên quan đến hoạt động của họ, không chia sẻ dữ liệu cho các phòng ban khác. Điều này sẽ tạo nên tình trạng phân quyền, khiến dữ liệu của doanh nghiệp bị phân tán, ảnh hưởng đến quá trình đưa ra những quyết định tổng quan khi không thể tập trung các dữ liệu cần thiết vào một mối.

* Theo bà, doanh nghiệp mới đầu tư xây dựng đội ngũ phân tích dữ liệu sẽ cần lưu ý những gì?

Bà Kim Ngân: Đối với những doanh nghiệp mới đầu tư vào đội ngũ phân tích dữ liệu, vấn đề đầu tiên cần cân nhắc là chi phí. Họ phải luôn cân nhắc và xác định được mức chi phí đầu tư đầu vào cần có để xây dựng đội ngũ, phần mềm và các công cụ lưu trữ. Bên cạnh các chi phí đầu vào, doanh nghiệp cũng cần tính toán được thời gian, công cụ, nhân lực và chi phí cần chuẩn bị để tập trung các dữ liệu đang bị phân tán.

Sau khi tập trung dữ liệu, chúng ta cần tính đến việc phân quyền cho những cá nhân, đội ngũ đủ năng lực truy cập vào nhóm dữ liệu đã được tổng hợp. Ở giai đoạn này sẽ có một khoản chi phí khác cần cân nhắc – chi phí đào tạo nhân sự. Việc đào tạo cần được đầu tư xứng đáng để góp phần xây dựng văn hoá dữ liệu cho toàn bộ công ty. Khi đó, dữ liệu sẽ được cập nhật đúng thời gian và chính xác theo mỗi ngày. Việc đào tạo cũng giúp các bạn chuyên viên có thể tự truy xuất dữ liệu, tự báo cáo, phân tích để đưa ra những dự đoán, đề xuất chính xác, kịp thời mà không phải chờ đợi.

Một số công ty phòng dữ liệu sẽ thuộc phòng IT hoặc được tách thành phòng ban độc lập. Với trường hợp phòng dữ liệu không nằm trong phòng IT, các quản lý cần xác định rõ phạm vi công việc, quy trình hợp tác giữa hai bên để có thể hỗ trợ nhau hiệu quả trong quá trình làm việc, tránh trường hợp mâu thuẫn về công cụ được sử dụng hoặc trùng lặp phạm vi công việc, khiến chi phí đầu tư bị đội lên.

* Cảm ơn bà về những chia sẻ trên!

Xem thêm bài viết cùng chuyên mục tại đây.

Thu Nga / Brands Vietnam
* Nguồn: Brands Vietnam