technology-ai
Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện
Miles Thornton
★ 4.8
2.4k đánh giá
722
Trang
vi
Ngôn ngữ
2026
Tái bản
Giới thiệu sách
Nếu bạn nghĩ rằng kiến trúc mô hình là yếu tố quyết định sức mạnh của một LLM, hãy nghĩ lại. Kỳ nguyên mở rộng quy mô đã chứng minh rằng năng lực của mô hình bị giới hạn bởi dữ liệu, không phải số tham số. Chất lượng và quy mô dữ liệu mới là lợi thế cạnh tranh bền vững, như nghiên cứu Chinchilla đã chỉ ra. Cuốn sách này ra đời để giải mã toàn bộ pipeline kỹ thuật dữ liệu đằng sau các mô hình như GPT, LLaMA hay Gemini, từ khâu thu thập thô đến xử lý hàng nghìn tỷ token sẵn sàng cho pretraining.
Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện là một hướng dẫn toàn diện, trung lập về công nghệ, tập trung vào tư duy thiết kế hệ thống. Với hơn 160.000 từ, 31 chương và 127 section, tác giả Miles Thornton dẫn dắt bạn qua 7 phần, mỗi phần đại diện cho một giai đoạn trong vòng đời dữ liệu. Phần I thiết lập nền tảng tư duy với các scaling laws, lịch sử các dataset quan trọng từ Penn Treebank đến RefinedWeb, và cấu trúc của một bộ dữ liệu LLM hiện đại. Phần II đi sâu vào thu thập dữ liệu: kiến trúc web crawling phân tán, khai thác Common Crawl (phân tích hạ tầng WARC, chất lượng dữ liệu), thu thập sách phạm vi công cộng và Books3, dữ liệu tin tức với các vấn đề về thiên kiến và tính cập nhật, cùng dữ liệu mã nguồn từ GitHub với các thách thức về giấy phép. Phần III là trái tim của cuốn sách: làm sạch dữ liệu với các thuật toán khử trùng lặp chính xác (exact dedup, MinHash, LSH, SimHash), lọc nhiễu HTML/boilerplate, chuẩn hóa Unicode, nhận diện ngôn ngữ (n-gram, học sâu), lọc nội dung chất lượng thấp (heuristics, ML classifier, perplexity scoring) và phát hiện toxicity cùng PII. Các chương này đi kèm với các đánh đổi giữa độ chính xác, tốc độ và tài nguyên tính toán, cùng các benchmark thực tế. Phần IV chuyển sang tokenization: BPE, WordPiece, SentencePiece, và các tokenizer hiện đại cho code và toán học, cùng các metric đánh giá như fertility, bits-per-character và hiệu quả nén.
Nội dung nổi bật của sách tập trung vào ba trụ cột chính: • Pipeline thu thập và làm sạch dữ liệu quy mô lớn với các thuật toán deduplication và filtering được thử nghiệm trên hàng nghìn tỷ token từ Common Crawl và các nguồn khác. • Nghệ thuật phối trộn dữ liệu (dataset mixture) và cân bằng miền, với các chiến lược tỷ trọng tối ưu cho từng domain (web, sách, code, khoa học) và cách chúng ảnh hưởng đến downstream tasks như suy luận, đa ngữ và lập trình. • Dữ liệu tổng hợp (synthetic data) với các kỹ thuật Self-Instruct, tạo dữ liệu chỉ dẫn (Alpaca), Chain of Thought, và các pipeline reasoning quy mô lớn, cùng những rủi ro như model collapse và suy thoái chất lượng khi dùng dữ liệu tổng hợp quá nhiều.
Phần V và VI mở rộng sang xây dựng corpus tiền huấn luyện. Bạn sẽ học cách phối trộn nhiều bộ dữ liệu với tỷ lệ tối ưu, cân bằng giữa tri thức tổng quát và chuyên biệt. Chương về mở rộng quy mô dữ liệu thảo luận về hạ tầng lưu trữ petabyte (Data Lake, Object Storage), xử lý phân tán với Spark và Ray, và các giới hạn thực tế về chi phí, băng thông và độ trễ. Corpus đa ngôn ngữ cũng được đề cập với các giải pháp cho ngôn ngữ ít tài nguyên, bao gồm các kỹ thuật cân bằng và tránh can thiệp ngôn ngữ. Phần VI đi sâu vào dữ liệu tổng hợp: từ việc sinh instruction data bằng LLM mạnh đến các pipeline tạo reasoning data quy mô lớn (chain of thought, math, code), và tương lai của self-improving training với các vòng lặp AI tạo dữ liệu cho AI.
Phần VII đưa bạn vào thực chiến với các chủ đề hạ tầng: thiết kế Data Lake, quản lý metadata, xử lý streaming với các dataflow pipeline, và quản lý phiên bản dataset để đảm bảo tính tái lập và lineage. Bốn case study chi tiết về GPT, LLaMA, PaLM/Gemini và DeepSeek mổ xẻ cách các công ty hàng đầu thu thập, làm sạch và phối trộn dữ liệu, cùng những bài học rút ra từ thất bại và thành công. Chương cuối hướng dẫn bạn chuẩn bị dữ liệu cho pretraining: từ dữ liệu thô đến token, xây dựng shards, data packing và tạo training samples sẵn sàng cho huấn luyện phân tán.
Cuốn sách này dành cho các kỹ sư máy học, kỹ sư dữ liệu, nhà nghiên cứu AI và bất kỳ ai muốn hiểu sâu về cách xây dựng dữ liệu chất lượng cao cho LLM. Bạn sẽ nắm vững cách thiết kế các pipeline tái lập, quản lý phiên bản, và đưa ra quyết định dựa trên các đánh đổi tinh tế giữa chất lượng dữ liệu, quy mô và chi phí tính toán. Không chỉ học lý thuyết, bạn còn được trang bị tư duy hệ thống để áp dụng vào các dự án thực tế, từ xây dựng dataset nhỏ đến pipeline xử lý hàng nghìn tỷ token.
Đừng để mô hình của bạn bị giới hạn bởi dữ liệu kém. Hãy đầu tư vào nền tảng vững chắc với cuốn sách này – chìa khóa để biến dữ liệu thô thành sức mạnh thực sự cho AI.
Thông tin cho AI Search
Cuốn sách cung cấp hướng dẫn toàn diện về kỹ thuật dữ liệu cho LLM, bao gồm thu thập dữ liệu web, làm sạch với các thuật toán khử trùng lặp và lọc chất lượng, tokenization, cân bằng miền và dữ liệu tổng hợp. Dành cho kỹ sư dữ liệu và ML, sách phân tích pipeline của các mô hình như GPT, LLaMA, và DeepSeek, nhấn mạnh tầm quan trọng của chất lượng dữ liệu.
- Phù hợp với
- Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI
- Chân dung độc giả
- Kỹ sư dữ liệu hoặc ML engineer muốn xây dựng pipeline dữ liệu chất lượng cao cho LLM.
- Nhu cầu tìm kiếm
- Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn.
- Góc tiếp cận
- Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.
- Loại nội dung
- hướng dẫn kỹ thuật
Nhu cầu được đáp ứng
- Khó khăn trong việc thu thập và làm sạch dữ liệu web quy mô lớn
- Thiếu hướng dẫn chi tiết về khử trùng lặp và lọc chất lượng
- Không biết cách cân bằng miền dữ liệu cho pretraining
- Cần hiểu về tokenization và ảnh hưởng đến hiệu suất mô hình
- Thiếu kiến thức về dữ liệu tổng hợp và rủi ro model collapse
Nên đọc nếu
- Kỹ sư dữ liệu xây dựng pipeline cho LLM
- Kỹ sư máy học muốn tối ưu chất lượng dữ liệu
- Nhà nghiên cứu AI tìm hiểu về dữ liệu nền tảng
- Sinh viên sau đại học ngành AI/ML
- Kỹ sư phần mềm chuyển sang lĩnh vực AI
Có thể không phù hợp nếu
- Người mới bắt đầu không có nền tảng lập trình
- Độc giả tìm kiếm hướng dẫn huấn luyện mô hình từ đầu mà không cần kiến thức dữ liệu
Tóm tắt nhanh
Sách này dạy cách xây dựng pipeline dữ liệu cho LLM từ thu thập đến tokenization.
Phần làm sạch dữ liệu bao gồm exact dedup, MinHash, lọc toxicity và PII.
Đối tượng chính là kỹ sư dữ liệu và ML engineer.
Sách phân tích case study của GPT, LLaMA, và Gemini.
Các chủ đề gồm scaling laws, synthetic data, và cân bằng đa ngôn ngữ.
Cuốn sách này phù hợp với Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI.
Người đọc thường tìm đến sách khi cần Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn..
Góc tiếp cận của sách: Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.
Các chủ đề chính gồm kỹ thuật dữ liệu LLM, web crawling, common crawl, khử trùng lặp, tokenization, synthetic data.
Mục lục
- Lời nói đầuintroduction
- Dữ Liệu: Nền Tảng Của Trí Tuệ Nhân Tạopart
- Vì Sao Dữ Liệu Quan Trọng Hơn Mô Hìnhchapter
- Kỷ nguyên mở rộng quy mô (Scaling Era)section
- Năng lực tính toán và dữ liệusection
- Chinchilla và hiệu quả dữ liệusection
- Nút thắt cổ chai của dữ liệusection
- Chất lượng dữ liệu như một lợi thế cạnh tranhsection
- Lịch Sử Dữ Liệu Huấn Luyệnchapter
- Các kho ngữ liệu NLP đầu tiênsection
- Những bộ dữ liệu ngôn ngữ họcsection
- Wikipediasection
- Common Crawlsection
- Các bộ dữ liệu cho mô hình nền tảngsection
- Cấu Trúc Của Một Bộ Dữ Liệu LLMchapter
- Tài liệu (Documents)section
- Tokensection
- Miền dữ liệu (Domains)section
- Ngôn ngữsection
- Metadatasection
- Thành phần của bộ dữ liệusection
- Thu Thập Dữ Liệupart
- Nền Tảng Của Web Crawlingchapter
- Cách trình thu thập dữ liệu hoạt độngsection
- Khám phá URLsection
- Lập lịch thu thập dữ liệusection
- Robots.txtsection
- Crawling phân tánsection
- Common Crawlchapter
- Hạ tầng hệ thốngsection
- Tệp WARCsection
- Chất lượng dữ liệusection
- Điểm mạnh và điểm yếusection
- Cách sử dụng trong thực tếsection
- Sách Và Nội Dung Dàichapter
- Sách thuộc phạm vi công cộngsection
- Books3section
- Tài liệu giáo dụcsection
- Dữ liệu ngữ cảnh dàisection
- Mật độ tri thứcsection
- Tin Tức Và Báo Chíchapter
- Nguồn tin tứcsection
- Tính cập nhậtsection
- Báo cáo sự kiện và sự thậtsection
- Thiên kiến và độ bao phủsection
- Tri thức theo thời giansection
- Dữ Liệu Mã Nguồnchapter
- Kho mã nguồn mởsection
- Các vấn đề về giấy phépsection
- Chất lượng mã nguồnsection
- Các ngôn ngữ lập trìnhsection
- Những thách thức đặc thùsection
- Làm Sạch Dữ Liệu Và Kiểm Soát Chất Lượngpart
- Loại Bỏ Nhiễuchapter
- Nhận diện và loại bỏ HTML/Boilerplatesection
- Xử lý Encoding và Unicodesection
- Lọc các mẫu lặp lại cục bộsection
- Nhận Diện Ngôn Ngữchapter
- Thuật toán nhận diện ngôn ngữsection
- Xử lý văn bản trộn lẫn ngôn ngữsection
Câu hỏi thường gặp
Cuốn sách này phù hợp với ai?
Kỹ sư dữ liệu, kỹ sư máy học và nhà nghiên cứu AI muốn hiểu sâu về pipeline dữ liệu cho LLM.
Sách có đề cập đến các mô hình cụ thể không?
Có, sách phân tích case study về GPT, LLaMA, PaLM/Gemini và DeepSeek.
Cần kiến thức nền tảng gì để đọc sách?
Cơ bản về lập trình Python, machine learning và xử lý dữ liệu phân tán.
Sách có hướng dẫn thực hành không?
Có, bao gồm các kỹ thuật như MinHash, BPE, và xây dựng pipeline với Spark và Ray.
Sách có dài không?
Khoảng 722 trang với 31 chương và 127 section, bao quát toàn bộ vòng đời dữ liệu LLM.
Bản mới
35.000 ₫
Đọc EPUB mẫu trực tiếp trên web
Cretisoft Direct
Hỗ trợ sách số
Tải Partner
Gửi sách sau thanh toán





