Chuẩn hóa dữ liệu tri thức

Đoạn văn bản (Chunk)

  • Văn bản tri thức sau khi được đọc và chuẩn hóa sẽ được cắt thành các đoạn (hay chunk) theo độ dài phù hợp với Chatbot đã được thiết lập trước (512 tokens, ~= 2000 ký tự tiếng Việt).

  • Chatbot sẽ truy vấn và tham khảo nội dung của các đoạn này khi thực hiện phản hồi các câu hỏi của người dùng.

  • Mỗi đoạn văn bản trong chunk nên chứa cùng một nội dung hoặc chủ đề, và cần có khả năng tự đứng độc lập mà không phụ thuộc vào các chunk khác.

  • Độ dài của chunk cần được tối ưu hóa đến mức nhỏ nhất để đảm bảo hiệu quả truy vấn và phản hồi (khuyến nghị nên nhỏ hơn 1024 tokens, ~= 4000 ký tự tiếng Việt) .

Nội dung tri thức có chứa bảng

Các nội dung dạng bảng trong văn bản tri thức nên được chuẩn hóa theo dạng Markdown hoặc XML.

Hình trên ví dụ cho việc chuẩn hóa các bảng trong dữ liệu theo định dạng Markdown (tối giản) với các cột (column) trong bảng được phân cách với nhau bằng ký tự "|". Để tìm hiểu thêm về định dạng Markdown, có thể tham khảo bài viết tại đây.

Nếu bảng chứa nội dung quá dài, cần chia bảng ra thành nhiều đoạn nhỏ (chunk). Mỗi chunk nên chứa một phần nội dung có liên quan với nhau của bảng, và đầu mỗi chunk nên được gắn lại tiêu đề và tên cột của bảng để đảm bảo tính liên tục và dễ hiểu.

Nội dung có chứa công thức toán học

Công thức toán học cần được chuyển về dạng Latex

Gợi ý tham khảo công cụ hỗ trợ Latex online: https://latex.codecogs.com/eqneditor/editor.php

Nội dung hình ảnh, lược đồ

Các nội dung dạng đa phương tiện: hình ảnh / lược đồ / biểu đồ , … Nên được diễn giải lại dưới dạng văn bản.

Từ viết tắt, từ đồng nghĩa

Các từ ngữ viết tắt hoặc đồng nghĩa cần được diễn giải rõ trong mỗi chunk để tránh sự nhầm lẫn, nhập nhằng trong ngữ nghĩa.

Last updated