Làm thế nào để siêu nạp hồ dữ liệu của bạn

0
10

        Tìm hiểu cách cải thiện hiệu suất của các hồ dữ liệu và phân tích của tổ chức của bạn.
    

        
                                                                                    
                        

 datalakeistock000081548541isergey.jpg "width =" 770 "/> </span><figcaption>
<p>
                                            Hình ảnh: iStock / iSergey<br />
                                        </p>
</figcaption></figure>
<p> Giám đốc điều hành Streamlio Karthik Ramasamy đã đặt câu hỏi vào tháng 3 năm 2019 nếu đó là thời gian để thoát các hồ dữ liệu. Trong bài đăng của mình, Ramasamy đã viết rằng các vấn đề với các hồ dữ liệu bao gồm sự phức tạp của quy trình, sự chậm chạp trong việc lấy dữ liệu và yêu cầu về tài năng CNTT đã lấy đi các dự án quan trọng khác. Tất cả các yếu tố này góp phần biến nhiều hồ dữ liệu thành "đầm lầy dữ liệu" – thông tin vô tổ chức mà các công ty đã không thành công trong việc khai thác để hiểu biết. </p>
<p> Trong khi các bài viết như Ramasamy không đủ để ngăn cản các tổ chức sử dụng hồ dữ liệu trong phân tích, họ đưa ra các vấn đề chính mà các tổ chức tiếp tục phải đối mặt khi họ cố gắng tận dụng tối đa các hồ dữ liệu và phân tích của họ. </p>
<p> <strong> XEM: </strong> <strong> 60 cách để có được giá trị cao nhất từ ​​các sáng kiến ​​dữ liệu lớn của bạn (PDF miễn phí) </strong> <strong> (TechRepublic) </strong> </p>
<p> ] Các công ty muốn xem các hồ dữ liệu chứa dữ liệu mới, đòi hỏi giảm chi tiêu tiền bạc và tài nguyên để phát triển các hồ này, cung cấp thời gian nhanh hơn để tiếp thị phân tích và hiểu biết kinh doanh và cho phép mọi người – không chỉ các nhà khoa học dữ liệu – truy vấn và thu được giá trị từ dữ liệu. Tất cả các mục tiêu này vẫn đang được tiến hành cho hầu hết các tổ chức. </p>
<p> "Công việc liên quan đến việc tạo ra một hồ dữ liệu có thể phức tạp và tốn nhiều thời gian và tài nguyên", Tomer Shiran, CEO và người sáng lập của Dremio, cung cấp giải pháp công cụ dữ liệu hồ. "Thông thường CNTT phải tạo các khối dữ liệu và kho dữ liệu cho dữ liệu được trích xuất nhằm mục đích tạo kho lưu trữ dữ liệu. Quá trình này có thể bao gồm nhiều bước và có thể trở nên rất phức tạp vì điều đó. Ngoài ra, còn có quản trị dữ liệu tiềm năng. vấn đề. "</p>
<p> Vấn đề trở nên trầm trọng hơn vì dữ liệu bán cấu trúc hoặc không cấu trúc phải được duy trì và làm mới trong các hồ dữ liệu này. </p>
<p> Shiran thấy việc đặt nhiều hồ dữ liệu của cả dữ liệu có cấu trúc và không cấu trúc trực tiếp vào các đám mây như S3 / AWS và Microsoft Azure là một phần của giải pháp. </p>
<p> "Đám mây có thể mở rộng và nó cho phép bạn tăng hoặc giảm tính toán và cụm máy chủ của bạn khi cần, giúp giảm chi phí", Shiran nói. </p>
<p> Đây là một khái niệm kiến ​​trúc mà các công ty như Dremio dựa vào. Các công ty này cung cấp các trình kết nối với các đám mây và công cụ truy vấn khác nhau cho phép các tổ chức truy cập trực tiếp vào đám mây cho các hồ dữ liệu của họ – mà không cần phải tạo các khối dữ liệu và kho dữ liệu riêng biệt. </p>
<p> Vậy, nó hoạt động như thế nào? Bằng cách sử dụng phần mềm đi kèm với một bộ kết nối hoàn chỉnh với nền tảng đám mây thương mại, cơ sở dữ liệu, kho dữ liệu và các công cụ truy vấn dữ liệu phổ biến như SQL, Snowflower và Salesforce, các tổ chức có thể bỏ qua việc phải tự phát triển các giao diện này, ngoài các khối dữ liệu riêng và hồ dữ liệu. Thay vào đó, các tổ chức có thể chuyển sang đám mây, để phần mềm thực hiện công việc và cung cấp dịch vụ truy vấn dữ liệu nhanh hơn. </p>
<p> "Về bản chất, bạn có một túi công cụ gồm nhiều trình kết nối được phát triển trước vào cơ sở dữ liệu, công cụ truy vấn và các đám mây như AWS và Azure cho phép bạn tận dụng các chi phí và tài nguyên có thể mở rộng của đám mây và điều đó cũng có thể tiết kiệm tài nguyên và ngân sách CNTT của bạn vì bạn không phải thực hiện tất cả các chi phí thiết lập trung gian cho các truy vấn và Hồ dữ liệu tự kết nối, "Shiran nói. </p>
<p> Những bộ công cụ này cũng có thể tối ưu hóa bộ nhớ để dữ liệu được truy cập thường xuyên nhất nằm trong bộ nhớ nhanh nhất – điều này giúp tăng tốc độ truy xuất dữ liệu và giảm thời gian tiếp thị cho hiểu biết kinh doanh. Ngoài ra, các công cụ có trí thông minh truy xuất dữ liệu dự đoán tích hợp cho phép chúng đánh giá loại dữ liệu nào được truy cập thường xuyên nhất để dữ liệu có thể được gán cho bộ nhớ nhanh, nơi có thể truy xuất nhanh nhất. </p>
<p> " Yếu tố khác mà chúng tôi thêm vào là ngữ nghĩa ", Shiran nói. "Nói cách khác, chúng tôi tạo giao diện người dùng giúp người dùng hàng ngày muốn chạy truy vấn dữ liệu dễ dàng thực hiện các truy vấn này một cách dễ dàng mà không cần phải nhờ nhà khoa học dữ liệu trợ giúp." </p>
<p> Có thể tiếp cận như thế này hỗ trợ tổ chức tối ưu hóa hồ dữ liệu của họ? Tiềm năng là có, miễn là các tổ chức cũng thực hiện hai điều này. </p>
<ol>
<li> <strong> Đánh giá các hồ dữ liệu hiện tại về tính hiệu quả: </strong> Điều này có thể liên quan đến việc xác định hồ dữ liệu nào đang hoạt động và bị trì trệ . Đối với các hồ dữ liệu bị đình trệ hoặc gần đến mức không hoàn vốn đầu tư, các quyết định nên được đưa ra là liệu có nên cải tạo chúng hay chỉ đơn giản là hoàng hôn chúng và bắt đầu lại. </li>
<li> <strong> Đánh giá đám mây của bạn và trong- Kiến trúc dữ liệu nội bộ: </strong> Công cụ tối ưu hóa hồ kết nối và dữ liệu chỉ hiệu quả như khả năng hiểu hồ dữ liệu và nhu cầu truy vấn của bạn và cách chúng liên kết với dữ liệu tại chỗ và trên nền tảng đám mây của bạn. Khi bạn hiểu cách dữ liệu phải được liên kết và nơi lưu trữ, bạn có thể tìm kiếm các công cụ kết nối giúp loại bỏ công việc thủ công.  </li>
</ol>
<div data-component=                                                                                 

                                                

Cũng xem