Reformer Reproducibility Experiments

Fastai community entry to 2020 Reproducibility Challenge

Project Links

Resources

Author's Code and Resources

More Code

Data

enwik8

enwik8.zip, raw data, 100mb
Tensor2Tensor enwik8 data generator code, with train/dev/test split. File lengths:
- Train: 89,621,832
- Eval: 5,000,000
- Test: 5,000,000
enwik8 notebook Tensor2Tensor

WMT14

WMT on HuggingFace Datasets
Reformer WMT14 vocab
Reformer.input_vocab_size = 33300, from WMT14 model config
Train Test split: (guess) newstest2013 for validation and newstest2014 for test, in consistence with Vaswani et al. (2017) - from https://arxiv.org/pdf/2009.02070.pdf
Tokenizer: Tensor2Tensor SubWordTextEncoder

Name		Name	Last commit message	Last commit date
Latest commit History 138 Commits
experiments		experiments
exploration		exploration
.gitignore		.gitignore
IMPLEMENTATION_NOTES.md		IMPLEMENTATION_NOTES.md
LICENSE		LICENSE
README.md		README.md
basic_tokenizers.py		basic_tokenizers.py
basic_transformer.py		basic_transformer.py
helpers.py		helpers.py
lsh_attention.py		lsh_attention.py
make_dataset.py		make_dataset.py
reformer.py		reformer.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Reformer Reproducibility Experiments

Project Links

Resources

Author's Code and Resources

More Code

Data

Explainers

Related

About

Releases

Packages

Languages

License

tyoc213-contrib/reformer-fastai-old

Folders and files

Latest commit

History

Repository files navigation

Reformer Reproducibility Experiments

Project Links

Resources

Author's Code and Resources

More Code

Data

Explainers

Related

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages