chainer-seq2seq-dataloader

Chainer data loader for text dataset using chainer.dataset.DatasetMixin. This data loader can be used for Japanese, Chinese and English.

Prerequesites

pip install -r requirements.txt

Usage

Clone the repository

git clone https://github.com/matasukef/chainer-seq2seq-dataloader
cd chainer-seq2seq-dataloader

Download nltk tokenizer

python
import nltk
nltk.download('punkt')

Clone Test Dataset

In this repository, small_parallel_enja is used in example.ipynb

git clone https://github.com/odashi/small_parallel_enja

Build word2token dictionary and tokenize sentences.

sh ./preprocess_data.sh

Check DataLoader

For usage, please see example.ipynb

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data		data
tests		tests
.gitignore		.gitignore
README.md		README.md
Seq2SeqDataset.py		Seq2SeqDataset.py
example.ipynb		example.ipynb
preprocess_data.sh		preprocess_data.sh
preprocess_tokens.py		preprocess_tokens.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

chainer-seq2seq-dataloader

Prerequesites

Usage

Clone the repository

Download nltk tokenizer

Clone Test Dataset

Build word2token dictionary and tokenize sentences.

Check DataLoader

About

Releases

Packages

Languages

matasuke/chainer-seq2seq-dataloader

Folders and files

Latest commit

History

Repository files navigation

chainer-seq2seq-dataloader

Prerequesites

Usage

Clone the repository

Download nltk tokenizer

Clone Test Dataset

Build word2token dictionary and tokenize sentences.

Check DataLoader

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages