RAG Document Loader

Load and chunk documents for Retrieval-Augmented Generation.

Installation

npm install rag-document-loader

Supported Formats

PDF (.pdf)
Word (.docx)
HTML (.html)
Markdown (.md)
Text (.txt)
CSV (.csv)
JSON (.json)

Quick Start

import { DocumentLoader, RecursiveTextSplitter } from 'rag-document-loader';

// Load documents
const loader = new DocumentLoader();
const docs = await loader.load('./documents');

// Split into chunks
const splitter = new RecursiveTextSplitter({
  chunkSize: 1000,
  chunkOverlap: 200,
});
const chunks = await splitter.split(docs);

// Each chunk has:
// - content: string
// - metadata: { source, page, type, ... }

Chunking Strategies

// By character count
new CharacterTextSplitter({ chunkSize: 1000 });

// By tokens (for LLMs)
new TokenTextSplitter({ chunkSize: 500, model: 'gpt-4' });

// By semantic similarity
new SemanticTextSplitter({ embeddings: openaiEmbeddings });

// By markdown headers
new MarkdownHeaderSplitter();

Metadata Extraction

const loader = new DocumentLoader({
  extractMetadata: true,
  // Extract: title, author, date, keywords
});

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RAG Document Loader

Installation

Supported Formats

Quick Start

Chunking Strategies

Metadata Extraction

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

RAG Document Loader

Installation

Supported Formats

Quick Start

Chunking Strategies

Metadata Extraction

License

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages