franziska/MasterarbeitCode

Files

History

franziska 1ea0677029 added to README files, added full dataset versions to data

2021-04-15 20:19:09 +02:00

..

initial commit of project

2021-04-11 23:28:41 +02:00

language_modeling.py

initial commit of project

2021-04-11 23:28:41 +02:00

make_new_vocab.py

initial commit of project

2021-04-11 23:28:41 +02:00

prep_dataset_training.py

initial commit of project

2021-04-11 23:28:41 +02:00

README.md

added to README files, added full dataset versions to data

2021-04-15 20:19:09 +02:00

README.md

Vocab

To create vocab.txt file, run make_new_vocab.py

Prep dataset

prep_dataset_training: Format and split dataset, so it can be used for training. Adapt which dataset version to make!

train German FoodBERT

language_modeling

Vocab Files:

bert-base-german-cased_tokenizer.json: original bert-base-german-cased tokenizer file bert_vocab.txt: original bert-base-german-cased vocab used_ingredients: all ingredients in dataset vocab.txt: German FoodBERT vocabulary