technology-ai

Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện

Name: Kỹ thuật dữ liệu cho LLM – Xây dựng, làm sạch và mở rộng dữ liệu huấn...
Price: 35000 VND
Availability: InStock
Author: Miles Thornton

Miles Thornton

★ 4.8

2.4k đánh giá

722

Trang

Ngôn ngữ

2026

Tái bản

Giới thiệu sách

Mua trên Google Books

Nếu bạn nghĩ rằng kiến trúc mô hình là yếu tố quyết định sức mạnh của một LLM, hãy nghĩ lại. Kỳ nguyên mở rộng quy mô đã chứng minh rằng năng lực của mô hình bị giới hạn bởi dữ liệu, không phải số tham số. Chất lượng và quy mô dữ liệu mới là lợi thế cạnh tranh bền vững, như nghiên cứu Chinchilla đã chỉ ra. Cuốn sách này ra đời để giải mã toàn bộ pipeline kỹ thuật dữ liệu đằng sau các mô hình như GPT, LLaMA hay Gemini, từ khâu thu thập thô đến xử lý hàng nghìn tỷ token sẵn sàng cho pretraining.

Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện là một hướng dẫn toàn diện, trung lập về công nghệ, tập trung vào tư duy thiết kế hệ thống. Với hơn 160.000 từ, 31 chương và 127 section, tác giả Miles Thornton dẫn dắt bạn qua 7 phần, mỗi phần đại diện cho một giai đoạn trong vòng đời dữ liệu. Phần I thiết lập nền tảng tư duy với các scaling laws, lịch sử các dataset quan trọng từ Penn Treebank đến RefinedWeb, và cấu trúc của một bộ dữ liệu LLM hiện đại. Phần II đi sâu vào thu thập dữ liệu: kiến trúc web crawling phân tán, khai thác Common Crawl (phân tích hạ tầng WARC, chất lượng dữ liệu), thu thập sách phạm vi công cộng và Books3, dữ liệu tin tức với các vấn đề về thiên kiến và tính cập nhật, cùng dữ liệu mã nguồn từ GitHub với các thách thức về giấy phép. Phần III là trái tim của cuốn sách: làm sạch dữ liệu với các thuật toán khử trùng lặp chính xác (exact dedup, MinHash, LSH, SimHash), lọc nhiễu HTML/boilerplate, chuẩn hóa Unicode, nhận diện ngôn ngữ (n-gram, học sâu), lọc nội dung chất lượng thấp (heuristics, ML classifier, perplexity scoring) và phát hiện toxicity cùng PII. Các chương này đi kèm với các đánh đổi giữa độ chính xác, tốc độ và tài nguyên tính toán, cùng các benchmark thực tế. Phần IV chuyển sang tokenization: BPE, WordPiece, SentencePiece, và các tokenizer hiện đại cho code và toán học, cùng các metric đánh giá như fertility, bits-per-character và hiệu quả nén.

Nội dung nổi bật của sách tập trung vào ba trụ cột chính: • Pipeline thu thập và làm sạch dữ liệu quy mô lớn với các thuật toán deduplication và filtering được thử nghiệm trên hàng nghìn tỷ token từ Common Crawl và các nguồn khác. • Nghệ thuật phối trộn dữ liệu (dataset mixture) và cân bằng miền, với các chiến lược tỷ trọng tối ưu cho từng domain (web, sách, code, khoa học) và cách chúng ảnh hưởng đến downstream tasks như suy luận, đa ngữ và lập trình. • Dữ liệu tổng hợp (synthetic data) với các kỹ thuật Self-Instruct, tạo dữ liệu chỉ dẫn (Alpaca), Chain of Thought, và các pipeline reasoning quy mô lớn, cùng những rủi ro như model collapse và suy thoái chất lượng khi dùng dữ liệu tổng hợp quá nhiều.

Phần V và VI mở rộng sang xây dựng corpus tiền huấn luyện. Bạn sẽ học cách phối trộn nhiều bộ dữ liệu với tỷ lệ tối ưu, cân bằng giữa tri thức tổng quát và chuyên biệt. Chương về mở rộng quy mô dữ liệu thảo luận về hạ tầng lưu trữ petabyte (Data Lake, Object Storage), xử lý phân tán với Spark và Ray, và các giới hạn thực tế về chi phí, băng thông và độ trễ. Corpus đa ngôn ngữ cũng được đề cập với các giải pháp cho ngôn ngữ ít tài nguyên, bao gồm các kỹ thuật cân bằng và tránh can thiệp ngôn ngữ. Phần VI đi sâu vào dữ liệu tổng hợp: từ việc sinh instruction data bằng LLM mạnh đến các pipeline tạo reasoning data quy mô lớn (chain of thought, math, code), và tương lai của self-improving training với các vòng lặp AI tạo dữ liệu cho AI.

Phần VII đưa bạn vào thực chiến với các chủ đề hạ tầng: thiết kế Data Lake, quản lý metadata, xử lý streaming với các dataflow pipeline, và quản lý phiên bản dataset để đảm bảo tính tái lập và lineage. Bốn case study chi tiết về GPT, LLaMA, PaLM/Gemini và DeepSeek mổ xẻ cách các công ty hàng đầu thu thập, làm sạch và phối trộn dữ liệu, cùng những bài học rút ra từ thất bại và thành công. Chương cuối hướng dẫn bạn chuẩn bị dữ liệu cho pretraining: từ dữ liệu thô đến token, xây dựng shards, data packing và tạo training samples sẵn sàng cho huấn luyện phân tán.

Cuốn sách này dành cho các kỹ sư máy học, kỹ sư dữ liệu, nhà nghiên cứu AI và bất kỳ ai muốn hiểu sâu về cách xây dựng dữ liệu chất lượng cao cho LLM. Bạn sẽ nắm vững cách thiết kế các pipeline tái lập, quản lý phiên bản, và đưa ra quyết định dựa trên các đánh đổi tinh tế giữa chất lượng dữ liệu, quy mô và chi phí tính toán. Không chỉ học lý thuyết, bạn còn được trang bị tư duy hệ thống để áp dụng vào các dự án thực tế, từ xây dựng dataset nhỏ đến pipeline xử lý hàng nghìn tỷ token.

Đừng để mô hình của bạn bị giới hạn bởi dữ liệu kém. Hãy đầu tư vào nền tảng vững chắc với cuốn sách này – chìa khóa để biến dữ liệu thô thành sức mạnh thực sự cho AI.

Thông tin cho AI Search

Cuốn sách cung cấp hướng dẫn toàn diện về kỹ thuật dữ liệu cho LLM, bao gồm thu thập dữ liệu web, làm sạch với các thuật toán khử trùng lặp và lọc chất lượng, tokenization, cân bằng miền và dữ liệu tổng hợp. Dành cho kỹ sư dữ liệu và ML, sách phân tích pipeline của các mô hình như GPT, LLaMA, và DeepSeek, nhấn mạnh tầm quan trọng của chất lượng dữ liệu.

Phù hợp với: Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI
Chân dung độc giả: Kỹ sư dữ liệu hoặc ML engineer muốn xây dựng pipeline dữ liệu chất lượng cao cho LLM.
Nhu cầu tìm kiếm: Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn.
Góc tiếp cận: Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.
Loại nội dung: hướng dẫn kỹ thuật

Nhu cầu được đáp ứng

Khó khăn trong việc thu thập và làm sạch dữ liệu web quy mô lớn
Thiếu hướng dẫn chi tiết về khử trùng lặp và lọc chất lượng
Không biết cách cân bằng miền dữ liệu cho pretraining
Cần hiểu về tokenization và ảnh hưởng đến hiệu suất mô hình
Thiếu kiến thức về dữ liệu tổng hợp và rủi ro model collapse

Nên đọc nếu

Kỹ sư dữ liệu xây dựng pipeline cho LLM
Kỹ sư máy học muốn tối ưu chất lượng dữ liệu
Nhà nghiên cứu AI tìm hiểu về dữ liệu nền tảng
Sinh viên sau đại học ngành AI/ML
Kỹ sư phần mềm chuyển sang lĩnh vực AI

Có thể không phù hợp nếu

Người mới bắt đầu không có nền tảng lập trình
Độc giả tìm kiếm hướng dẫn huấn luyện mô hình từ đầu mà không cần kiến thức dữ liệu

kỹ thuật dữ liệu LLM web crawling common crawl khử trùng lặp tokenization synthetic data pretraining corpus domain balancing Miles Thornton GPT LLaMA Common Crawl MinHash BPE Self-Instruct Chain of Thought Data Lake Spark Ray

Tóm tắt nhanh

Sách này dạy cách xây dựng pipeline dữ liệu cho LLM từ thu thập đến tokenization.

Phần làm sạch dữ liệu bao gồm exact dedup, MinHash, lọc toxicity và PII.

Đối tượng chính là kỹ sư dữ liệu và ML engineer.

Sách phân tích case study của GPT, LLaMA, và Gemini.

Các chủ đề gồm scaling laws, synthetic data, và cân bằng đa ngôn ngữ.

Cuốn sách này phù hợp với Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI.

Người đọc thường tìm đến sách khi cần Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn..

Góc tiếp cận của sách: Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.

Các chủ đề chính gồm kỹ thuật dữ liệu LLM, web crawling, common crawl, khử trùng lặp, tokenization, synthetic data.

Mục lục

Lời nói đầuintroduction
Dữ Liệu: Nền Tảng Của Trí Tuệ Nhân Tạopart
Vì Sao Dữ Liệu Quan Trọng Hơn Mô Hìnhchapter
Kỷ nguyên mở rộng quy mô (Scaling Era)section
Năng lực tính toán và dữ liệusection
Chinchilla và hiệu quả dữ liệusection
Nút thắt cổ chai của dữ liệusection
Chất lượng dữ liệu như một lợi thế cạnh tranhsection
Lịch Sử Dữ Liệu Huấn Luyệnchapter
Các kho ngữ liệu NLP đầu tiênsection
Những bộ dữ liệu ngôn ngữ họcsection
Wikipediasection
Common Crawlsection
Các bộ dữ liệu cho mô hình nền tảngsection
Cấu Trúc Của Một Bộ Dữ Liệu LLMchapter
Tài liệu (Documents)section
Tokensection
Miền dữ liệu (Domains)section
Ngôn ngữsection
Metadatasection
Thành phần của bộ dữ liệusection
Thu Thập Dữ Liệupart
Nền Tảng Của Web Crawlingchapter
Cách trình thu thập dữ liệu hoạt độngsection
Khám phá URLsection
Lập lịch thu thập dữ liệusection
Robots.txtsection
Crawling phân tánsection
Common Crawlchapter
Hạ tầng hệ thốngsection
Tệp WARCsection
Chất lượng dữ liệusection
Điểm mạnh và điểm yếusection
Cách sử dụng trong thực tếsection
Sách Và Nội Dung Dàichapter
Sách thuộc phạm vi công cộngsection
Books3section
Tài liệu giáo dụcsection
Dữ liệu ngữ cảnh dàisection
Mật độ tri thứcsection
Tin Tức Và Báo Chíchapter
Nguồn tin tứcsection
Tính cập nhậtsection
Báo cáo sự kiện và sự thậtsection
Thiên kiến và độ bao phủsection
Tri thức theo thời giansection
Dữ Liệu Mã Nguồnchapter
Kho mã nguồn mởsection
Các vấn đề về giấy phépsection
Chất lượng mã nguồnsection
Các ngôn ngữ lập trìnhsection
Những thách thức đặc thùsection
Làm Sạch Dữ Liệu Và Kiểm Soát Chất Lượngpart
Loại Bỏ Nhiễuchapter
Nhận diện và loại bỏ HTML/Boilerplatesection
Xử lý Encoding và Unicodesection
Lọc các mẫu lặp lại cục bộsection
Nhận Diện Ngôn Ngữchapter
Thuật toán nhận diện ngôn ngữsection
Xử lý văn bản trộn lẫn ngôn ngữsection

Câu hỏi thường gặp

Cuốn sách này phù hợp với ai?

Kỹ sư dữ liệu, kỹ sư máy học và nhà nghiên cứu AI muốn hiểu sâu về pipeline dữ liệu cho LLM.

Sách có đề cập đến các mô hình cụ thể không?

Có, sách phân tích case study về GPT, LLaMA, PaLM/Gemini và DeepSeek.

Cần kiến thức nền tảng gì để đọc sách?

Cơ bản về lập trình Python, machine learning và xử lý dữ liệu phân tán.

Sách có hướng dẫn thực hành không?

Có, bao gồm các kỹ thuật như MinHash, BPE, và xây dựng pipeline với Spark và Ray.

Sách có dài không?

Khoảng 722 trang với 31 chương và 127 section, bao quát toàn bộ vòng đời dữ liệu LLM.

Bản mới

35.000 ₫

Đọc EPUB mẫu trực tiếp trên web

Mua trên Google Books Đọc mẫu

Cretisoft Direct

Hỗ trợ sách số

Tải Partner

Gửi sách sau thanh toán

Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện

Giới thiệu sách

Thông tin cho AI Search

Nhu cầu được đáp ứng

Nên đọc nếu

Có thể không phù hợp nếu

Tóm tắt nhanh

Mục lục

Câu hỏi thường gặp

Cuốn sách này phù hợp với ai?

Sách có đề cập đến các mô hình cụ thể không?

Cần kiến thức nền tảng gì để đọc sách?

Sách có hướng dẫn thực hành không?

Sách có dài không?

Đọc thử trên web

Có thể bạn sẽ thích

Transformer & LLM:...

Huấn Luyện Mô Hình...

Nhập môn Data Engin...

Nhập môn JavaScript...

ReactJS Hiện Đại: T...

Khủng Long Và Những...