Trí tuệ nhân tạo năm 2026, cuộc chiến về "Dữ liệu chính xác" bắt đầu... Thiết kế dựa trên ngữ nghĩa sẽ quyết định thắng thua

robot
Đang tạo bản tóm tắt

2025年 là năm của trí tuệ nhân tạo(AI) tạo sinh trở thành chủ đề cốt lõi của ngành công nghiệp, mở ra “Thời kỳ Phục hưng Dữ liệu”. Nhưng đến năm 2026, tầm quan trọng đã vượt ra ngoài việc đơn thuần thu thập dữ liệu chất lượng cao, cách làm cho mô hình AI thực sự hiểu và vận dụng ý nghĩa của “dữ liệu đúng đắn” ở các lớp(semantic layers) vấn đề ngày càng rõ nét. Điều này đánh dấu sự chính thức khai màn của kỷ nguyên thiết kế dữ liệu có ý nghĩa, bao gồm cả đồ thị tri thức và ontology, có thể làm rõ ngữ cảnh dữ liệu, ý nghĩa và danh tính thương mại.

Năm ngoái, làn sóng “trí tuệ nhân tạo” AI đã lan rộng khắp ngành công nghiệp, nhiều doanh nghiệp kỳ vọng đạt được tự động hóa kinh doanh và tối ưu hóa quyết định nhờ đó. Nhưng phần lớn AI tự động chưa đạt kỳ vọng, nguyên nhân chính bắt nguồn từ chất lượng dữ liệu và tính phù hợp của ngữ cảnh sử dụng. Nghiên cứu của Đại học Carnegie Mellon chỉ ra rằng, hiện nay, các AI chưa được huấn luyện đủ để xử lý các nhiệm vụ phức tạp, và các lỗi suy luận phát sinh từ ngữ cảnh dữ liệu sẽ làm giảm hiệu suất tổng thể.

Trong bối cảnh này, độ chính xác của dữ liệu(Data Quality) và hệ thống quản trị(Data Governance) liệu có phát triển đến mức trưởng thành hay không trở thành vấn đề quan trọng. Các nhà cung cấp đám mây lớn như Amazon Web Services(AWS) vẫn cung cấp hệ sinh thái dữ liệu rộng lớn, nhưng các công nghệ mới về dữ liệu và đổi mới nền tảng của họ phát hành trong năm trước còn hạn chế. Ngược lại, các sự kiện như IBM mua lại Confluent, Microsoft ra mắt HorizonDB dựa trên PostgreSQL, tượng trưng cho xu hướng tái cấu trúc hệ công nghệ dữ liệu.

Kiến trúc Zero ETL và công nghệ chia sẻ dữ liệu đã trở thành xu hướng chủ đạo vào năm 2025. Đây là nỗ lực đơn giản hóa các pipeline dữ liệu phức tạp và dễ tổn thương, ví dụ như các nền tảng Snowflake, Databricks hỗ trợ kết nối dữ liệu SAP hoặc Salesforce, nâng cao khả năng truy cập dữ liệu kinh doanh rõ ràng hơn.

Một xu hướng khác là phổ biến công nghệ xử lý dữ liệu vector. Nhiều nền tảng dữ liệu chính đã nâng cao khả năng truy vấn và phân tích vector, Oracle ra mắt các chức năng truy vấn kết hợp dữ liệu có cấu trúc và phi cấu trúc, AWS cũng ra mắt lớp lưu trữ S3 tối ưu cho vector. Điều này tạo nền tảng cho việc AI toàn diện sử dụng tài liệu, hình ảnh và thậm chí dữ liệu phân tán trong doanh nghiệp.

Thay đổi đáng chú ý nhất chính là sự đánh giá lại giá trị của lớpsemantic layer. Ban đầu dùng cho các công cụ BI hoặc hệ thống ERP, lớp này dựa trên các khái niệm cốt lõi như “chỉ số”, “kích thước”, “chi tiết”, tiêu chuẩn hóa ý nghĩa và cách diễn giải dữ liệu. Tableau, Databricks, Snowflake, Microsoft đang thúc đẩy nhanh việc tích hợp lớp ý nghĩa, trong đó Microsoft Fabric IQ còn tích hợp khái niệm ontology doanh nghiệp vào lớp ý nghĩa hiện có, nhằm đảm bảo độ chính xác của ngữ cảnh phân tích AI theo thời gian thực.

Trong xu hướng này, sáng kiến trao đổi ý nghĩa mở dựa trên Snowflake nhằm xây dựng tiêu chuẩn chung đảm bảo khả năng tương tác của các lớp ý nghĩa giữa các nền tảng AI và dữ liệu. Kiến trúc này dựa trên MetricFlow của dbt Labs, định nghĩa các chỉ số và kích thước qua tệp cấu hình YAML. Tuy nhiên, khả năng của các dự án mã nguồn mở xử lý các tài sản ý nghĩa giá trị cao, đặc biệt là ý muốn chia sẻ của các nhà cung cấp ứng dụng, vẫn còn là điều chưa rõ.

Hơn nữa, các công nghệ như đồ thị tri thức độc lập và GraphRAG đang được chú ý như hạ tầng nền tảng cho AI hiểu chính xác ngữ cảnh. Neo4J, công cụ RAG của Google Vertex AI, Microsoft LazyGraphRAG đều hướng tới xây dựng nền tảng công nghệ kích hoạt các mô hình này, các ứng dụng thực tế cũng ngày càng tăng. Các doanh nghiệp như Deloitte, AdaptX đã triển khai toàn diện các ứng dụng AI dựa trên đồ thị tri thức trong các lĩnh vực phức tạp như y tế, an ninh.

Tuy nhiên, thách thức lớn nhất vẫn là thiếu nhân lực chuyên môn về mô hình hóa ontology. Trong bối cảnh AI còn khó tự thiết kế cấu trúc ý nghĩa, nhu cầu về kỹ sư kiến thức và kiến trúc sư ý nghĩa lại tăng vọt. Điều này gợi nhớ đến những khó khăn trong thực hành “quản lý tri thức” cách đây hàng chục năm. Trong xu hướng hiện tại, khả năng diễn giải ý nghĩa chính xác và liên kết với kinh doanh còn quan trọng hơn việc thu thập dữ liệu đơn thuần.

Tóm lại, cốt lõi của thời đại AI không phải là tích lũy dữ liệu đơn thuần, mà là khả năng hiểu chính xác ý nghĩa và ngữ cảnh của dữ liệu đó. Dự kiến, năm 2026 sẽ trở thành bước ngoặt trong việc hình thành các vòng ảnh hưởng của ý nghĩa, nơi các nền tảng và ứng dụng cạnh tranh để giành quyền kiểm soát. Các mô hình hợp tác chia sẻ của Snowflake, Databricks, SAP đang định hình bối cảnh cạnh tranh dựa trên tiêu chuẩn và hệ sinh thái, báo hiệu rằng các doanh nghiệp cung cấp dữ liệu “đúng” sẽ cuối cùng nắm giữ quyền kiểm soát tối thượng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận