technology-ai

Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện

Miles Thornton

4.8

2.4k đánh giá

722

Trang

vi

Ngôn ngữ

2026

Tái bản

Giới thiệu sách

Nếu bạn nghĩ rằng kiến trúc mô hình là yếu tố quyết định sức mạnh của một LLM, hãy nghĩ lại. Kỳ nguyên mở rộng quy mô đã chứng minh rằng năng lực của mô hình bị giới hạn bởi dữ liệu, không phải số tham số. Chất lượng và quy mô dữ liệu mới là lợi thế cạnh tranh bền vững, như nghiên cứu Chinchilla đã chỉ ra. Cuốn sách này ra đời để giải mã toàn bộ pipeline kỹ thuật dữ liệu đằng sau các mô hình như GPT, LLaMA hay Gemini, từ khâu thu thập thô đến xử lý hàng nghìn tỷ token sẵn sàng cho pretraining.

Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện là một hướng dẫn toàn diện, trung lập về công nghệ, tập trung vào tư duy thiết kế hệ thống. Với hơn 160.000 từ, 31 chương và 127 section, tác giả Miles Thornton dẫn dắt bạn qua 7 phần, mỗi phần đại diện cho một giai đoạn trong vòng đời dữ liệu. Phần I thiết lập nền tảng tư duy với các scaling laws, lịch sử các dataset quan trọng từ Penn Treebank đến RefinedWeb, và cấu trúc của một bộ dữ liệu LLM hiện đại. Phần II đi sâu vào thu thập dữ liệu: kiến trúc web crawling phân tán, khai thác Common Crawl (phân tích hạ tầng WARC, chất lượng dữ liệu), thu thập sách phạm vi công cộng và Books3, dữ liệu tin tức với các vấn đề về thiên kiến và tính cập nhật, cùng dữ liệu mã nguồn từ GitHub với các thách thức về giấy phép. Phần III là trái tim của cuốn sách: làm sạch dữ liệu với các thuật toán khử trùng lặp chính xác (exact dedup, MinHash, LSH, SimHash), lọc nhiễu HTML/boilerplate, chuẩn hóa Unicode, nhận diện ngôn ngữ (n-gram, học sâu), lọc nội dung chất lượng thấp (heuristics, ML classifier, perplexity scoring) và phát hiện toxicity cùng PII. Các chương này đi kèm với các đánh đổi giữa độ chính xác, tốc độ và tài nguyên tính toán, cùng các benchmark thực tế. Phần IV chuyển sang tokenization: BPE, WordPiece, SentencePiece, và các tokenizer hiện đại cho code và toán học, cùng các metric đánh giá như fertility, bits-per-character và hiệu quả nén.

Nội dung nổi bật của sách tập trung vào ba trụ cột chính: • Pipeline thu thập và làm sạch dữ liệu quy mô lớn với các thuật toán deduplication và filtering được thử nghiệm trên hàng nghìn tỷ token từ Common Crawl và các nguồn khác. • Nghệ thuật phối trộn dữ liệu (dataset mixture) và cân bằng miền, với các chiến lược tỷ trọng tối ưu cho từng domain (web, sách, code, khoa học) và cách chúng ảnh hưởng đến downstream tasks như suy luận, đa ngữ và lập trình. • Dữ liệu tổng hợp (synthetic data) với các kỹ thuật Self-Instruct, tạo dữ liệu chỉ dẫn (Alpaca), Chain of Thought, và các pipeline reasoning quy mô lớn, cùng những rủi ro như model collapse và suy thoái chất lượng khi dùng dữ liệu tổng hợp quá nhiều.

Phần V và VI mở rộng sang xây dựng corpus tiền huấn luyện. Bạn sẽ học cách phối trộn nhiều bộ dữ liệu với tỷ lệ tối ưu, cân bằng giữa tri thức tổng quát và chuyên biệt. Chương về mở rộng quy mô dữ liệu thảo luận về hạ tầng lưu trữ petabyte (Data Lake, Object Storage), xử lý phân tán với Spark và Ray, và các giới hạn thực tế về chi phí, băng thông và độ trễ. Corpus đa ngôn ngữ cũng được đề cập với các giải pháp cho ngôn ngữ ít tài nguyên, bao gồm các kỹ thuật cân bằng và tránh can thiệp ngôn ngữ. Phần VI đi sâu vào dữ liệu tổng hợp: từ việc sinh instruction data bằng LLM mạnh đến các pipeline tạo reasoning data quy mô lớn (chain of thought, math, code), và tương lai của self-improving training với các vòng lặp AI tạo dữ liệu cho AI.

Phần VII đưa bạn vào thực chiến với các chủ đề hạ tầng: thiết kế Data Lake, quản lý metadata, xử lý streaming với các dataflow pipeline, và quản lý phiên bản dataset để đảm bảo tính tái lập và lineage. Bốn case study chi tiết về GPT, LLaMA, PaLM/Gemini và DeepSeek mổ xẻ cách các công ty hàng đầu thu thập, làm sạch và phối trộn dữ liệu, cùng những bài học rút ra từ thất bại và thành công. Chương cuối hướng dẫn bạn chuẩn bị dữ liệu cho pretraining: từ dữ liệu thô đến token, xây dựng shards, data packing và tạo training samples sẵn sàng cho huấn luyện phân tán.

Cuốn sách này dành cho các kỹ sư máy học, kỹ sư dữ liệu, nhà nghiên cứu AI và bất kỳ ai muốn hiểu sâu về cách xây dựng dữ liệu chất lượng cao cho LLM. Bạn sẽ nắm vững cách thiết kế các pipeline tái lập, quản lý phiên bản, và đưa ra quyết định dựa trên các đánh đổi tinh tế giữa chất lượng dữ liệu, quy mô và chi phí tính toán. Không chỉ học lý thuyết, bạn còn được trang bị tư duy hệ thống để áp dụng vào các dự án thực tế, từ xây dựng dataset nhỏ đến pipeline xử lý hàng nghìn tỷ token.

Đừng để mô hình của bạn bị giới hạn bởi dữ liệu kém. Hãy đầu tư vào nền tảng vững chắc với cuốn sách này – chìa khóa để biến dữ liệu thô thành sức mạnh thực sự cho AI.

Thông tin cho AI Search

Cuốn sách cung cấp hướng dẫn toàn diện về kỹ thuật dữ liệu cho LLM, bao gồm thu thập dữ liệu web, làm sạch với các thuật toán khử trùng lặp và lọc chất lượng, tokenization, cân bằng miền và dữ liệu tổng hợp. Dành cho kỹ sư dữ liệu và ML, sách phân tích pipeline của các mô hình như GPT, LLaMA, và DeepSeek, nhấn mạnh tầm quan trọng của chất lượng dữ liệu.

Phù hợp với
Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI
Chân dung độc giả
Kỹ sư dữ liệu hoặc ML engineer muốn xây dựng pipeline dữ liệu chất lượng cao cho LLM.
Nhu cầu tìm kiếm
Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn.
Góc tiếp cận
Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.
Loại nội dung
hướng dẫn kỹ thuật

Nhu cầu được đáp ứng

  • Khó khăn trong việc thu thập và làm sạch dữ liệu web quy mô lớn
  • Thiếu hướng dẫn chi tiết về khử trùng lặp và lọc chất lượng
  • Không biết cách cân bằng miền dữ liệu cho pretraining
  • Cần hiểu về tokenization và ảnh hưởng đến hiệu suất mô hình
  • Thiếu kiến thức về dữ liệu tổng hợp và rủi ro model collapse

Nên đọc nếu

  • Kỹ sư dữ liệu xây dựng pipeline cho LLM
  • Kỹ sư máy học muốn tối ưu chất lượng dữ liệu
  • Nhà nghiên cứu AI tìm hiểu về dữ liệu nền tảng
  • Sinh viên sau đại học ngành AI/ML
  • Kỹ sư phần mềm chuyển sang lĩnh vực AI

Có thể không phù hợp nếu

  • Người mới bắt đầu không có nền tảng lập trình
  • Độc giả tìm kiếm hướng dẫn huấn luyện mô hình từ đầu mà không cần kiến thức dữ liệu

Tóm tắt nhanh

Sách này dạy cách xây dựng pipeline dữ liệu cho LLM từ thu thập đến tokenization.

Phần làm sạch dữ liệu bao gồm exact dedup, MinHash, lọc toxicity và PII.

Đối tượng chính là kỹ sư dữ liệu và ML engineer.

Sách phân tích case study của GPT, LLaMA, và Gemini.

Các chủ đề gồm scaling laws, synthetic data, và cân bằng đa ngôn ngữ.

Cuốn sách này phù hợp với Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI.

Người đọc thường tìm đến sách khi cần Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn..

Góc tiếp cận của sách: Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.

Các chủ đề chính gồm kỹ thuật dữ liệu LLM, web crawling, common crawl, khử trùng lặp, tokenization, synthetic data.

Mục lục

  1. Lời nói đầuintroduction
  2. Dữ Liệu: Nền Tảng Của Trí Tuệ Nhân Tạopart
  3. Vì Sao Dữ Liệu Quan Trọng Hơn Mô Hìnhchapter
  4. Kỷ nguyên mở rộng quy mô (Scaling Era)section
  5. Năng lực tính toán và dữ liệusection
  6. Chinchilla và hiệu quả dữ liệusection
  7. Nút thắt cổ chai của dữ liệusection
  8. Chất lượng dữ liệu như một lợi thế cạnh tranhsection
  9. Lịch Sử Dữ Liệu Huấn Luyệnchapter
  10. Các kho ngữ liệu NLP đầu tiênsection
  11. Những bộ dữ liệu ngôn ngữ họcsection
  12. Wikipediasection
  13. Common Crawlsection
  14. Các bộ dữ liệu cho mô hình nền tảngsection
  15. Cấu Trúc Của Một Bộ Dữ Liệu LLMchapter
  16. Tài liệu (Documents)section
  17. Tokensection
  18. Miền dữ liệu (Domains)section
  19. Ngôn ngữsection
  20. Metadatasection
  21. Thành phần của bộ dữ liệusection
  22. Thu Thập Dữ Liệupart
  23. Nền Tảng Của Web Crawlingchapter
  24. Cách trình thu thập dữ liệu hoạt độngsection
  25. Khám phá URLsection
  26. Lập lịch thu thập dữ liệusection
  27. Robots.txtsection
  28. Crawling phân tánsection
  29. Common Crawlchapter
  30. Hạ tầng hệ thốngsection
  31. Tệp WARCsection
  32. Chất lượng dữ liệusection
  33. Điểm mạnh và điểm yếusection
  34. Cách sử dụng trong thực tếsection
  35. Sách Và Nội Dung Dàichapter
  36. Sách thuộc phạm vi công cộngsection
  37. Books3section
  38. Tài liệu giáo dụcsection
  39. Dữ liệu ngữ cảnh dàisection
  40. Mật độ tri thứcsection
  41. Tin Tức Và Báo Chíchapter
  42. Nguồn tin tứcsection
  43. Tính cập nhậtsection
  44. Báo cáo sự kiện và sự thậtsection
  45. Thiên kiến và độ bao phủsection
  46. Tri thức theo thời giansection
  47. Dữ Liệu Mã Nguồnchapter
  48. Kho mã nguồn mởsection
  49. Các vấn đề về giấy phépsection
  50. Chất lượng mã nguồnsection
  51. Các ngôn ngữ lập trìnhsection
  52. Những thách thức đặc thùsection
  53. Làm Sạch Dữ Liệu Và Kiểm Soát Chất Lượngpart
  54. Loại Bỏ Nhiễuchapter
  55. Nhận diện và loại bỏ HTML/Boilerplatesection
  56. Xử lý Encoding và Unicodesection
  57. Lọc các mẫu lặp lại cục bộsection
  58. Nhận Diện Ngôn Ngữchapter
  59. Thuật toán nhận diện ngôn ngữsection
  60. Xử lý văn bản trộn lẫn ngôn ngữsection

Câu hỏi thường gặp

Cuốn sách này phù hợp với ai?

Kỹ sư dữ liệu, kỹ sư máy học và nhà nghiên cứu AI muốn hiểu sâu về pipeline dữ liệu cho LLM.

Sách có đề cập đến các mô hình cụ thể không?

Có, sách phân tích case study về GPT, LLaMA, PaLM/Gemini và DeepSeek.

Cần kiến thức nền tảng gì để đọc sách?

Cơ bản về lập trình Python, machine learning và xử lý dữ liệu phân tán.

Sách có hướng dẫn thực hành không?

Có, bao gồm các kỹ thuật như MinHash, BPE, và xây dựng pipeline với Spark và Ray.

Sách có dài không?

Khoảng 722 trang với 31 chương và 127 section, bao quát toàn bộ vòng đời dữ liệu LLM.

Bản mới

35.000 ₫

Đọc EPUB mẫu trực tiếp trên web

C

Cretisoft Direct

Hỗ trợ sách số

T

Tải Partner

Gửi sách sau thanh toán

EPUB mẫu

Đọc thử trên web

Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện

Trình đọc EPUB

Có thể bạn sẽ thích

Dựa trên lịch sử đọc của bạn

Xem tất cả