technology-ai
Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện
Miles Thornton
Book 2#2★ 4.8
2.4k reseñas
722
Páginas
vi
Idioma
2026
Publicado
Nueva edición
₫35,000
Lee la muestra EPUB directamente en la web
Introducción del libro
Nếu bạn nghĩ rằng kiến trúc mô hình là yếu tố quyết định sức mạnh của một LLM, hãy nghĩ lại. Kỳ nguyên mở rộng quy mô đã chứng minh rằng năng lực của mô hình bị giới hạn bởi dữ liệu, không phải số tham số. Chất lượng và quy mô dữ liệu mới là lợi thế cạnh tranh bền vững, như nghiên cứu Chinchilla đã chỉ ra. Cuốn sách này ra đời để giải mã toàn bộ pipeline kỹ thuật dữ liệu đằng sau các mô hình như GPT, LLaMA hay Gemini, từ khâu thu thập thô đến xử lý hàng nghìn tỷ token sẵn sàng cho pretraining.
Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện là một hướng dẫn toàn diện, trung lập về công nghệ, tập trung vào tư duy thiết kế hệ thống. Với hơn 160.000 từ, 31 chương và 127 section, tác giả Miles Thornton dẫn dắt bạn qua 7 phần, mỗi phần đại diện cho một giai đoạn trong vòng đời dữ liệu. Phần I thiết lập nền tảng tư duy với các scaling laws, lịch sử các dataset quan trọng từ Penn Treebank đến RefinedWeb, và cấu trúc của một bộ dữ liệu LLM hiện đại. Phần II đi sâu vào thu thập dữ liệu: kiến trúc web crawling phân tán, khai thác Common Crawl (phân tích hạ tầng WARC, chất lượng dữ liệu), thu thập sách phạm vi công cộng và Books3, dữ liệu tin tức với các vấn đề về thiên kiến và tính cập nhật, cùng dữ liệu mã nguồn từ GitHub với các thách thức về giấy phép. Phần III là trái tim của cuốn sách: làm sạch dữ liệu với các thuật toán khử trùng lặp chính xác (exact dedup, MinHash, LSH, SimHash), lọc nhiễu HTML/boilerplate, chuẩn hóa Unicode, nhận diện ngôn ngữ (n-gram, học sâu), lọc nội dung chất lượng thấp (heuristics, ML classifier, perplexity scoring) và phát hiện toxicity cùng PII. Các chương này đi kèm với các đánh đổi giữa độ chính xác, tốc độ và tài nguyên tính toán, cùng các benchmark thực tế. Phần IV chuyển sang tokenization: BPE, WordPiece, SentencePiece, và các tokenizer hiện đại cho code và toán học, cùng các metric đánh giá như fertility, bits-per-character và hiệu quả nén.
Nội dung nổi bật của sách tập trung vào ba trụ cột chính: • Pipeline thu thập và làm sạch dữ liệu quy mô lớn với các thuật toán deduplication và filtering được thử nghiệm trên hàng nghìn tỷ token từ Common Crawl và các nguồn khác. • Nghệ thuật phối trộn dữ liệu (dataset mixture) và cân bằng miền, với các chiến lược tỷ trọng tối ưu cho từng domain (web, sách, code, khoa học) và cách chúng ảnh hưởng đến downstream tasks như suy luận, đa ngữ và lập trình. • Dữ liệu tổng hợp (synthetic data) với các kỹ thuật Self-Instruct, tạo dữ liệu chỉ dẫn (Alpaca), Chain of Thought, và các pipeline reasoning quy mô lớn, cùng những rủi ro như model collapse và suy thoái chất lượng khi dùng dữ liệu tổng hợp quá nhiều.
Phần V và VI mở rộng sang xây dựng corpus tiền huấn luyện. Bạn sẽ học cách phối trộn nhiều bộ dữ liệu với tỷ lệ tối ưu, cân bằng giữa tri thức tổng quát và chuyên biệt. Chương về mở rộng quy mô dữ liệu thảo luận về hạ tầng lưu trữ petabyte (Data Lake, Object Storage), xử lý phân tán với Spark và Ray, và các giới hạn thực tế về chi phí, băng thông và độ trễ. Corpus đa ngôn ngữ cũng được đề cập với các giải pháp cho ngôn ngữ ít tài nguyên, bao gồm các kỹ thuật cân bằng và tránh can thiệp ngôn ngữ. Phần VI đi sâu vào dữ liệu tổng hợp: từ việc sinh instruction data bằng LLM mạnh đến các pipeline tạo reasoning data quy mô lớn (chain of thought, math, code), và tương lai của self-improving training với các vòng lặp AI tạo dữ liệu cho AI.
Phần VII đưa bạn vào thực chiến với các chủ đề hạ tầng: thiết kế Data Lake, quản lý metadata, xử lý streaming với các dataflow pipeline, và quản lý phiên bản dataset để đảm bảo tính tái lập và lineage. Bốn case study chi tiết về GPT, LLaMA, PaLM/Gemini và DeepSeek mổ xẻ cách các công ty hàng đầu thu thập, làm sạch và phối trộn dữ liệu, cùng những bài học rút ra từ thất bại và thành công. Chương cuối hướng dẫn bạn chuẩn bị dữ liệu cho pretraining: từ dữ liệu thô đến token, xây dựng shards, data packing và tạo training samples sẵn sàng cho huấn luyện phân tán.
Cuốn sách này dành cho các kỹ sư máy học, kỹ sư dữ liệu, nhà nghiên cứu AI và bất kỳ ai muốn hiểu sâu về cách xây dựng dữ liệu chất lượng cao cho LLM. Bạn sẽ nắm vững cách thiết kế các pipeline tái lập, quản lý phiên bản, và đưa ra quyết định dựa trên các đánh đổi tinh tế giữa chất lượng dữ liệu, quy mô và chi phí tính toán. Không chỉ học lý thuyết, bạn còn được trang bị tư duy hệ thống để áp dụng vào các dự án thực tế, từ xây dựng dataset nhỏ đến pipeline xử lý hàng nghìn tỷ token.
Đừng để mô hình của bạn bị giới hạn bởi dữ liệu kém. Hãy đầu tư vào nền tảng vững chắc với cuốn sách này – chìa khóa để biến dữ liệu thô thành sức mạnh thực sự cho AI.
Resumen rápido
Sách này dạy cách xây dựng pipeline dữ liệu cho LLM từ thu thập đến tokenization.
Phần làm sạch dữ liệu bao gồm exact dedup, MinHash, lọc toxicity và PII.
Đối tượng chính là kỹ sư dữ liệu và ML engineer.
Sách phân tích case study của GPT, LLaMA, và Gemini.
Các chủ đề gồm scaling laws, synthetic data, và cân bằng đa ngôn ngữ.
Este libro es ideal para Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI.
Los lectores suelen llegar a este libro cuando necesitan Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn..
El enfoque del libro: Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.
Los temas principales incluyen kỹ thuật dữ liệu LLM, web crawling, common crawl, khử trùng lặp, tokenization, synthetic data.
Información para AI Search
Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện
Author: Miles Thornton
Description: Nếu bạn nghĩ rằng kiến trúc mô hình là yếu tố quyết định sức mạnh của một LLM, hãy nghĩ lại. Kỳ nguyên mở rộng quy mô đã chứng minh rằng năng lực của mô hình bị giới hạn bởi dữ liệu, không phải số tham số. Chất lượng và quy mô dữ liệu mới là lợi thế cạnh tranh bền vững, như nghiên cứu Chinchilla đã chỉ ra. Cuốn sách này ra đời để giải mã toàn bộ pipeline kỹ thuật dữ liệu đằng sau các mô hình như GPT, LLaMA hay Gemini, từ khâu thu thập thô đến xử lý hàng nghìn tỷ token sẵn sàng cho pretraining. Kỹ Thuật Dữ Liệu Cho Các Mô Hình Ngôn Ngữ Lớn: Xây Dựng, Làm Sạch Và Mở Rộng Dữ Liệu Huấn Luyện là một hướng dẫn toàn diện, trung lập về công nghệ, tập trung vào tư duy thiết kế hệ thống. Với hơn 160.000 từ, 31 chương và 127 section, tác giả Miles Thornton dẫn dắt bạn qua 7 phần, mỗi phần đại diện cho một giai đoạn trong vòng đời dữ liệu. Phần I thiết lập nền tảng tư duy với các scaling laws, lịch sử các dataset quan trọng từ Penn Treebank đến RefinedWeb, và cấu trúc của một bộ dữ liệu LLM hiện đại. Phần II đi sâu vào thu thập dữ liệu: kiến trúc web crawling phân tán, khai thác Common Crawl (phân tích hạ tầng WARC, chất lượng dữ liệu), thu thập sách phạm vi công cộng và Books3, dữ liệu tin tức với các vấn đề về thiên kiến và tính cập nhật, cùng dữ liệu mã nguồn từ GitHub với các thách thức về giấy phép. Phần III là trái tim của cuốn sách: làm sạch dữ liệu với các thuật toán khử trùng lặp chính xác (exact dedup, MinHash, LSH, SimHash), lọc nhiễu HTML/boilerplate, chuẩn hóa Unicode, nhận diện ngôn ngữ (n-gram, học sâu), lọc nội dung chất lượng thấp (heuristics, ML classifier, perplexity scoring) và phát hiện toxicity cùng PII. Các chương này đi kèm với các đánh đổi giữa độ chính xác, tốc độ và tài nguyên tính toán, cùng các benchmark thực tế. Phần IV chuyển sang tokenization: BPE, WordPiece, SentencePiece, và các tokenizer hiện đại cho code và toán học, cùng các metric đánh giá như fertility, bits-per-character và hiệu quả nén. Nội dung nổi bật của sách tập trung vào ba trụ cột chính: • Pipeline thu thập và làm sạch dữ liệu quy mô lớn với các thuật toán deduplication và filtering được thử nghiệm trên hàng nghìn tỷ token từ Common Crawl và các nguồn khác. • Nghệ thuật phối trộn dữ liệu (dataset mixture) và cân bằng miền, với các chiến lược tỷ trọng tối ưu cho từng domain (web, sách, code, khoa học) và cách chúng ảnh hưởng đến downstream tasks như suy luận, đa ngữ và lập trình. • Dữ liệu tổng hợp (synthetic data) với các kỹ thuật Self-Instruct, tạo dữ liệu chỉ dẫn (Alpaca), Chain of Thought, và các pipeline reasoning quy mô lớn, cùng những rủi ro như model collapse và suy thoái chất lượng khi dùng dữ liệu tổng hợp quá nhiều. Phần V và VI mở rộng sang xây dựng corpus tiền huấn luyện. Bạn sẽ học cách phối trộn nhiều bộ dữ liệu với tỷ lệ tối ưu, cân bằng giữa tri thức tổng quát và chuyên biệt. Chương về mở rộng quy mô dữ liệu thảo luận về hạ tầng lưu trữ petabyte (Data Lake, Object Storage), xử lý phân tán với Spark và Ray, và các giới hạn thực tế về chi phí, băng thông và độ trễ. Corpus đa ngôn ngữ cũng được đề cập với các giải pháp cho ngôn ngữ ít tài nguyên, bao gồm các kỹ thuật cân bằng và tránh can thiệp ngôn ngữ. Phần VI đi sâu vào dữ liệu tổng hợp: từ việc sinh instruction data bằng LLM mạnh đến các pipeline tạo reasoning data quy mô lớn (chain of thought, math, code), và tương lai của self-improving training với các vòng lặp AI tạo dữ liệu cho AI. Phần VII đưa bạn vào thực chiến với các chủ đề hạ tầng: thiết kế Data Lake, quản lý metadata, xử lý streaming với các dataflow pipeline, và quản lý phiên bản dataset để đảm bảo tính tái lập và lineage. Bốn case study chi tiết về GPT, LLaMA, PaLM/Gemini và DeepSeek mổ xẻ cách các công ty hàng đầu thu thập, làm sạch và phối trộn dữ liệu, cùng những bài học rút ra từ thất bại và thành công. Chương cuối hướng dẫn bạn chuẩn bị dữ liệu cho pretraining: từ dữ liệu thô đến token, xây dựng shards, data packing và tạo training samples sẵn sàng cho huấn luyện phân tán. Cuốn sách này dành cho các kỹ sư máy học, kỹ sư dữ liệu, nhà nghiên cứu AI và bất kỳ ai muốn hiểu sâu về cách xây dựng dữ liệu chất lượng cao cho LLM. Bạn sẽ nắm vững cách thiết kế các pipeline tái lập, quản lý phiên bản, và đưa ra quyết định dựa trên các đánh đổi tinh tế giữa chất lượng dữ liệu, quy mô và chi phí tính toán. Không chỉ học lý thuyết, bạn còn được trang bị tư duy hệ thống để áp dụng vào các dự án thực tế, từ xây dựng dataset nhỏ đến pipeline xử lý hàng nghìn tỷ token. Đừng để mô hình của bạn bị giới hạn bởi dữ liệu kém. Hãy đầu tư vào nền tảng vững chắc với cuốn sách này – chìa khóa để biến dữ liệu thô thành sức mạnh thực sự cho AI.
AI summary: Cuốn sách cung cấp hướng dẫn toàn diện về kỹ thuật dữ liệu cho LLM, bao gồm thu thập dữ liệu web, làm sạch với các thuật toán khử trùng lặp và lọc chất lượng, tokenization, cân bằng miền và dữ liệu tổng hợp. Dành cho kỹ sư dữ liệu và ML, sách phân tích pipeline của các mô hình như GPT, LLaMA, và DeepSeek, nhấn mạnh tầm quan trọng của chất lượng dữ liệu.
- Ideal para
- Kỹ sư dữ liệu, kỹ sư máy học, nhà nghiên cứu AI
- Perfil del lector
- Kỹ sư dữ liệu hoặc ML engineer muốn xây dựng pipeline dữ liệu chất lượng cao cho LLM.
- Intención de búsqueda
- Người dùng tìm kiếm hướng dẫn chi tiết về kỹ thuật dữ liệu để huấn luyện mô hình ngôn ngữ lớn.
- Enfoque único
- Khác với các sách về kiến trúc mô hình, cuốn sách này tập trung hoàn toàn vào kỹ thuật dữ liệu – yếu tố quyết định năng lực LLM.
- Tipo de contenido
- hướng dẫn kỹ thuật
Resumen rápido
- Sách này dạy cách xây dựng pipeline dữ liệu cho LLM từ thu thập đến tokenization.
- Phần làm sạch dữ liệu bao gồm exact dedup, MinHash, lọc toxicity và PII.
- Đối tượng chính là kỹ sư dữ liệu và ML engineer.
- Sách phân tích case study của GPT, LLaMA, và Gemini.
- Các chủ đề gồm scaling laws, synthetic data, và cân bằng đa ngôn ngữ.
Key topics: kỹ thuật dữ liệu LLM, web crawling, common crawl, khử trùng lặp, tokenization, synthetic data, pretraining corpus, domain balancing
Entities: Miles Thornton, GPT, LLaMA, Common Crawl, MinHash, BPE, Self-Instruct, Chain of Thought, Data Lake, Spark, Ray
Necesidades cubiertas
- Khó khăn trong việc thu thập và làm sạch dữ liệu web quy mô lớn
- Thiếu hướng dẫn chi tiết về khử trùng lặp và lọc chất lượng
- Không biết cách cân bằng miền dữ liệu cho pretraining
- Cần hiểu về tokenization và ảnh hưởng đến hiệu suất mô hình
- Thiếu kiến thức về dữ liệu tổng hợp và rủi ro model collapse
Léelo si
- Kỹ sư dữ liệu xây dựng pipeline cho LLM
- Kỹ sư máy học muốn tối ưu chất lượng dữ liệu
- Nhà nghiên cứu AI tìm hiểu về dữ liệu nền tảng
- Sinh viên sau đại học ngành AI/ML
- Kỹ sư phần mềm chuyển sang lĩnh vực AI
Puede no encajar si
- Người mới bắt đầu không có nền tảng lập trình
- Độc giả tìm kiếm hướng dẫn huấn luyện mô hình từ đầu mà không cần kiến thức dữ liệu
Índice
- Lời nói đầu (introduction)
- Dữ Liệu: Nền Tảng Của Trí Tuệ Nhân Tạo (part)
- Vì Sao Dữ Liệu Quan Trọng Hơn Mô Hình (chapter)
- Kỷ nguyên mở rộng quy mô (Scaling Era) (section)
- Năng lực tính toán và dữ liệu (section)
- Chinchilla và hiệu quả dữ liệu (section)
- Nút thắt cổ chai của dữ liệu (section)
- Chất lượng dữ liệu như một lợi thế cạnh tranh (section)
- Lịch Sử Dữ Liệu Huấn Luyện (chapter)
- Các kho ngữ liệu NLP đầu tiên (section)
- Những bộ dữ liệu ngôn ngữ học (section)
- Wikipedia (section)
- Common Crawl (section)
- Các bộ dữ liệu cho mô hình nền tảng (section)
- Cấu Trúc Của Một Bộ Dữ Liệu LLM (chapter)
- Tài liệu (Documents) (section)
- Token (section)
- Miền dữ liệu (Domains) (section)
- Ngôn ngữ (section)
- Metadata (section)
- Thành phần của bộ dữ liệu (section)
- Thu Thập Dữ Liệu (part)
- Nền Tảng Của Web Crawling (chapter)
- Cách trình thu thập dữ liệu hoạt động (section)
- Khám phá URL (section)
- Lập lịch thu thập dữ liệu (section)
- Robots.txt (section)
- Crawling phân tán (section)
- Common Crawl (chapter)
- Hạ tầng hệ thống (section)
- Tệp WARC (section)
- Chất lượng dữ liệu (section)
- Điểm mạnh và điểm yếu (section)
- Cách sử dụng trong thực tế (section)
- Sách Và Nội Dung Dài (chapter)
- Sách thuộc phạm vi công cộng (section)
- Books3 (section)
- Tài liệu giáo dục (section)
- Dữ liệu ngữ cảnh dài (section)
- Mật độ tri thức (section)
- Tin Tức Và Báo Chí (chapter)
- Nguồn tin tức (section)
- Tính cập nhật (section)
- Báo cáo sự kiện và sự thật (section)
- Thiên kiến và độ bao phủ (section)
- Tri thức theo thời gian (section)
- Dữ Liệu Mã Nguồn (chapter)
- Kho mã nguồn mở (section)
- Các vấn đề về giấy phép (section)
- Chất lượng mã nguồn (section)
- Các ngôn ngữ lập trình (section)
- Những thách thức đặc thù (section)
- Làm Sạch Dữ Liệu Và Kiểm Soát Chất Lượng (part)
- Loại Bỏ Nhiễu (chapter)
- Nhận diện và loại bỏ HTML/Boilerplate (section)
- Xử lý Encoding và Unicode (section)
- Lọc các mẫu lặp lại cục bộ (section)
- Nhận Diện Ngôn Ngữ (chapter)
- Thuật toán nhận diện ngôn ngữ (section)
- Xử lý văn bản trộn lẫn ngôn ngữ (section)
- Đánh đổi hiệu suất và độ chính xác (section)
- Khử Trùng Lặp Dữ Liệu (chapter)
- Exact Deduplication (section)
- MinHash và LSH (section)
- SimHash và Fuzzy Matching (section)
- Deduplication ở cấp độ Document và Paragraph (section)
- Lọc Nội Dung Chất Lượng Thấp (chapter)
- Heuristics và Rule-based filtering (section)
- Classifier dựa trên ML (section)
- Perplexity scoring và Cross-entropy (section)
- Lọc Nội Dung Độc Hại Và Đảm Bảo An Toàn (chapter)
- Nhận diện và lọc Toxicity (section)
- Xử lý Thông tin cá nhân (PII) (section)
- Cân bằng giữa An toàn và Giữ gìn tri thức (section)
- Tokenization Và Biểu Diễn Dữ Liệu (part)
- Vì Sao Tokenization Quan Trọng (chapter)
- Khái niệm Tokenization (section)
- Tác động đến khả năng suy luận và toán học (section)
- Vấn đề đa ngôn ngữ (section)
- Byte Pair Encoding (BPE) (chapter)
Preguntas frecuentes
Cuốn sách này phù hợp với ai?
Kỹ sư dữ liệu, kỹ sư máy học và nhà nghiên cứu AI muốn hiểu sâu về pipeline dữ liệu cho LLM.
Sách có đề cập đến các mô hình cụ thể không?
Có, sách phân tích case study về GPT, LLaMA, PaLM/Gemini và DeepSeek.
Cần kiến thức nền tảng gì để đọc sách?
Cơ bản về lập trình Python, machine learning và xử lý dữ liệu phân tán.
Sách có hướng dẫn thực hành không?
Có, bao gồm các kỹ thuật như MinHash, BPE, và xây dựng pipeline với Spark và Ray.
Sách có dài không?
Khoảng 722 trang với 31 chương và 127 section, bao quát toàn bộ vòng đời dữ liệu LLM.
Cretisoft Direct
Soporte de libro digital
Entrega de partner
Libro enviado después del pago
