RucocoAncor_rubertb_a150_s20_sw04.log

2022-07-08 11:12:18,849 - INFO - allennlp.common.params - random_seed = 13370
2022-07-08 11:12:18,849 - INFO - allennlp.common.params - numpy_seed = 1337
2022-07-08 11:12:18,849 - INFO - allennlp.common.params - pytorch_seed = 133
2022-07-08 11:12:18,850 - INFO - allennlp.common.checks - Pytorch version: 1.9.0+cu111
2022-07-08 11:12:18,850 - INFO - allennlp.common.params - type = default
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.type = rucoref
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.max_instances = None
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.manual_distributed_sharding = False
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.manual_multiprocess_sharding = False
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.max_span_width = 20
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.type = pretrained_transformer_mismatched
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.token_min_padding_length = 0
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.model_name = DeepPavlov/rubert-base-cased
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.namespace = tags
2022-07-08 11:12:18,851 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.max_length = 128
2022-07-08 11:12:18,852 - INFO - allennlp.common.params - dataset_reader.token_indexers.tokens.tokenizer_kwargs = None
2022-07-08 11:12:25,052 - INFO - allennlp.common.params - dataset_reader.wordpiece_modeling_tokenizer = None
2022-07-08 11:12:25,052 - INFO - allennlp.common.params - dataset_reader.max_sentences = None
2022-07-08 11:12:25,052 - INFO - allennlp.common.params - dataset_reader.remove_singleton_clusters = False
2022-07-08 11:12:25,052 - INFO - allennlp.common.params - train_data_path = /root/datacrunch_training/data/train.conll
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - vocabulary = <allennlp.common.lazy.Lazy object at 0x7f4228708af0>
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - datasets_for_vocab_creation = None
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - validation_dataset_reader = None
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - validation_data_path = /root/datacrunch_training/data/dev.conll
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - validation_data_loader = None
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - test_data_path = /root/datacrunch_training/data/test.conll
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - evaluate_on_test = False
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - batch_weight_key = 
2022-07-08 11:12:25,053 - INFO - allennlp.common.params - data_loader.type = multiprocess
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.batch_size = None
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.drop_last = False
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.shuffle = False
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.batch_sampler.type = bucket
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.batch_sampler.batch_size = 1
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.batch_sampler.sorting_keys = ['text']
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.batch_sampler.padding_noise = 0
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.batch_sampler.drop_last = False
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.num_workers = 0
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
2022-07-08 11:12:25,054 - INFO - allennlp.common.params - data_loader.start_method = fork
2022-07-08 11:12:25,055 - INFO - allennlp.common.params - data_loader.cuda_device = None
2022-07-08 11:12:25,055 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
2022-07-08 11:12:35,139 - INFO - tqdm - loading instances: 546it [00:10, 38.78it/s]
2022-07-08 11:12:45,255 - INFO - tqdm - loading instances: 1165it [00:20, 56.93it/s]
2022-07-08 11:12:55,259 - INFO - tqdm - loading instances: 1740it [00:30, 29.88it/s]
2022-07-08 11:13:05,354 - INFO - tqdm - loading instances: 2400it [00:40, 81.77it/s]
2022-07-08 11:13:15,550 - INFO - tqdm - loading instances: 2834it [00:50, 33.46it/s]
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.type = multiprocess
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.batch_size = None
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.drop_last = False
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.shuffle = False
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.batch_sampler.type = bucket
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.batch_sampler.batch_size = 1
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.batch_sampler.sorting_keys = ['text']
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.batch_sampler.padding_noise = 0
2022-07-08 11:13:15,856 - INFO - allennlp.common.params - data_loader.batch_sampler.drop_last = False
2022-07-08 11:13:15,857 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
2022-07-08 11:13:15,857 - INFO - allennlp.common.params - data_loader.num_workers = 0
2022-07-08 11:13:15,857 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
2022-07-08 11:13:15,857 - INFO - allennlp.common.params - data_loader.start_method = fork
2022-07-08 11:13:15,857 - INFO - allennlp.common.params - data_loader.cuda_device = None
2022-07-08 11:13:15,857 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
2022-07-08 11:13:23,678 - INFO - allennlp.common.params - data_loader.type = multiprocess
2022-07-08 11:13:23,678 - INFO - allennlp.common.params - data_loader.batch_size = None
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.drop_last = False
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.shuffle = False
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.batch_sampler.type = bucket
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.batch_sampler.batch_size = 1
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.batch_sampler.sorting_keys = ['text']
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.batch_sampler.padding_noise = 0
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.batch_sampler.drop_last = False
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.num_workers = 0
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.start_method = fork
2022-07-08 11:13:23,679 - INFO - allennlp.common.params - data_loader.cuda_device = None
2022-07-08 11:13:23,680 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
2022-07-08 11:13:27,979 - INFO - allennlp.common.params - type = from_instances
2022-07-08 11:13:27,979 - INFO - allennlp.common.params - min_count = None
2022-07-08 11:13:27,979 - INFO - allennlp.common.params - max_vocab_size = None
2022-07-08 11:13:27,979 - INFO - allennlp.common.params - non_padded_namespaces = ('*tags', '*labels')
2022-07-08 11:13:27,979 - INFO - allennlp.common.params - pretrained_files = None
2022-07-08 11:13:27,980 - INFO - allennlp.common.params - only_include_pretrained_words = False
2022-07-08 11:13:27,980 - INFO - allennlp.common.params - tokens_to_add = None
2022-07-08 11:13:27,980 - INFO - allennlp.common.params - min_pretrained_embeddings = None
2022-07-08 11:13:27,980 - INFO - allennlp.common.params - padding_token = @@PADDING@@
2022-07-08 11:13:27,980 - INFO - allennlp.common.params - oov_token = @@UNKNOWN@@
2022-07-08 11:13:27,980 - INFO - allennlp.data.vocabulary - Fitting token dictionary from dataset.
2022-07-08 11:13:27,980 - INFO - tqdm - building vocab: 0it [00:00, ?it/s]
2022-07-08 11:13:30,295 - INFO - allennlp.common.params - model.type = coref
2022-07-08 11:13:30,295 - INFO - allennlp.common.params - model.regularizer = None
2022-07-08 11:13:30,295 - INFO - allennlp.common.params - model.text_field_embedder.type = basic
2022-07-08 11:13:30,295 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.type = pretrained_transformer_mismatched
2022-07-08 11:13:30,295 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.model_name = DeepPavlov/rubert-base-cased
2022-07-08 11:13:30,296 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.max_length = 128
2022-07-08 11:13:30,296 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.train_parameters = True
2022-07-08 11:13:30,296 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.last_layer_only = True
2022-07-08 11:13:30,296 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.gradient_checkpointing = None
2022-07-08 11:13:30,296 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.tokenizer_kwargs = None
2022-07-08 11:13:30,296 - INFO - allennlp.common.params - model.text_field_embedder.token_embedders.tokens.transformer_kwargs = None
2022-07-08 11:13:33,834 - INFO - allennlp.common.params - model.context_layer.type = lstm
2022-07-08 11:13:33,835 - INFO - allennlp.common.params - model.context_layer.input_size = 768
2022-07-08 11:13:33,835 - INFO - allennlp.common.params - model.context_layer.hidden_size = 200
2022-07-08 11:13:33,835 - INFO - allennlp.common.params - model.context_layer.num_layers = 1
2022-07-08 11:13:33,835 - INFO - allennlp.common.params - model.context_layer.bias = True
2022-07-08 11:13:33,835 - INFO - allennlp.common.params - model.context_layer.dropout = 0.0
2022-07-08 11:13:33,835 - INFO - allennlp.common.params - model.context_layer.bidirectional = True
2022-07-08 11:13:33,836 - INFO - allennlp.common.params - model.context_layer.stateful = False
2022-07-08 11:13:33,853 - INFO - allennlp.common.params - model.mention_feedforward.input_dim = 1588
2022-07-08 11:13:33,853 - INFO - allennlp.common.params - model.mention_feedforward.num_layers = 2
2022-07-08 11:13:33,853 - INFO - allennlp.common.params - model.mention_feedforward.hidden_dims = 150
2022-07-08 11:13:33,853 - INFO - allennlp.common.params - model.mention_feedforward.activations = relu
2022-07-08 11:13:33,853 - INFO - allennlp.common.params - type = relu
2022-07-08 11:13:33,853 - INFO - allennlp.common.params - model.mention_feedforward.dropout = 0.2
2022-07-08 11:13:33,855 - INFO - allennlp.common.params - model.antecedent_feedforward.input_dim = 4784
2022-07-08 11:13:33,855 - INFO - allennlp.common.params - model.antecedent_feedforward.num_layers = 2
2022-07-08 11:13:33,855 - INFO - allennlp.common.params - model.antecedent_feedforward.hidden_dims = 150
2022-07-08 11:13:33,855 - INFO - allennlp.common.params - model.antecedent_feedforward.activations = relu
2022-07-08 11:13:33,855 - INFO - allennlp.common.params - type = relu
2022-07-08 11:13:33,855 - INFO - allennlp.common.params - model.antecedent_feedforward.dropout = 0.2
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.feature_size = 20
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.max_span_width = 20
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.spans_per_word = 0.4
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.max_antecedents = 150
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.coarse_to_fine = False
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.inference_order = 1
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.lexical_dropout = 0.5
2022-07-08 11:13:33,860 - INFO - allennlp.common.params - model.initializer.regexes.0.1.type = xavier_normal
2022-07-08 11:13:33,861 - INFO - allennlp.common.params - model.initializer.regexes.0.1.gain = 1.0
2022-07-08 11:13:33,861 - INFO - allennlp.common.params - model.initializer.regexes.1.1.type = xavier_normal
2022-07-08 11:13:33,861 - INFO - allennlp.common.params - model.initializer.regexes.1.1.gain = 1.0
2022-07-08 11:13:33,861 - INFO - allennlp.common.params - model.initializer.regexes.2.1.type = xavier_normal
2022-07-08 11:13:33,861 - INFO - allennlp.common.params - model.initializer.regexes.2.1.gain = 1.0
2022-07-08 11:13:33,861 - INFO - allennlp.common.params - model.initializer.regexes.3.1.type = xavier_normal
2022-07-08 11:13:33,861 - INFO - allennlp.common.params - model.initializer.regexes.3.1.gain = 1.0
2022-07-08 11:13:33,862 - INFO - allennlp.common.params - model.initializer.regexes.4.1.type = xavier_normal
2022-07-08 11:13:33,862 - INFO - allennlp.common.params - model.initializer.regexes.4.1.gain = 1.0
2022-07-08 11:13:33,862 - INFO - allennlp.common.params - model.initializer.regexes.5.1.type = orthogonal
2022-07-08 11:13:33,862 - INFO - allennlp.common.params - model.initializer.regexes.5.1.gain = 1.0
2022-07-08 11:13:33,862 - INFO - allennlp.common.params - model.initializer.prevent_regexes = None
2022-07-08 11:13:33,863 - INFO - allennlp.nn.initializers - Initializing parameters
2022-07-08 11:13:33,870 - INFO - allennlp.nn.initializers - Initializing _context_layer._module.weight_ih_l0 using _context_layer._module.weight_ih.* initializer
2022-07-08 11:13:33,873 - INFO - allennlp.nn.initializers - Initializing _context_layer._module.weight_hh_l0 using _context_layer._module.weight_hh.* initializer
2022-07-08 11:13:34,133 - INFO - allennlp.nn.initializers - Initializing _context_layer._module.weight_ih_l0_reverse using _context_layer._module.weight_ih.* initializer
2022-07-08 11:13:34,137 - INFO - allennlp.nn.initializers - Initializing _context_layer._module.weight_hh_l0_reverse using _context_layer._module.weight_hh.* initializer
2022-07-08 11:13:34,176 - INFO - allennlp.nn.initializers - Initializing _mention_feedforward._module._linear_layers.0.weight using .*linear_layers.*weight initializer
2022-07-08 11:13:34,178 - INFO - allennlp.nn.initializers - Initializing _mention_feedforward._module._linear_layers.1.weight using .*linear_layers.*weight initializer
2022-07-08 11:13:34,179 - INFO - allennlp.nn.initializers - Initializing _mention_scorer._module.weight using .*scorer._module.weight initializer
2022-07-08 11:13:34,180 - INFO - allennlp.nn.initializers - Initializing _antecedent_feedforward._module._linear_layers.0.weight using .*linear_layers.*weight initializer
2022-07-08 11:13:34,186 - INFO - allennlp.nn.initializers - Initializing _antecedent_feedforward._module._linear_layers.1.weight using .*linear_layers.*weight initializer
2022-07-08 11:13:34,186 - INFO - allennlp.nn.initializers - Initializing _antecedent_scorer._module.weight using .*scorer._module.weight initializer
2022-07-08 11:13:34,188 - INFO - allennlp.nn.initializers - Initializing _endpoint_span_extractor._span_width_embedding.weight using _span_width_embedding.weight initializer
2022-07-08 11:13:34,188 - INFO - allennlp.nn.initializers - Initializing _distance_embedding.weight using _distance_embedding.weight initializer
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers - Done initializing parameters; the following parameters are using their default initialization from their code
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _antecedent_feedforward._module._linear_layers.0.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _antecedent_feedforward._module._linear_layers.1.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _antecedent_scorer._module.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _attentive_span_extractor._global_attention._module.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _attentive_span_extractor._global_attention._module.weight
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _context_layer._module.bias_hh_l0
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _context_layer._module.bias_hh_l0_reverse
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _context_layer._module.bias_ih_l0
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _context_layer._module.bias_ih_l0_reverse
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _mention_feedforward._module._linear_layers.0.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _mention_feedforward._module._linear_layers.1.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _mention_scorer._module.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.LayerNorm.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.LayerNorm.weight
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.position_embeddings.weight
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.token_type_embeddings.weight
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.word_embeddings.weight
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.bias
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.weight
2022-07-08 11:13:34,189 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.dense.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.dense.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.bias
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.weight
2022-07-08 11:13:34,190 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.dense.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.dense.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.dense.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.dense.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.weight
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.bias
2022-07-08 11:13:34,191 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.dense.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.dense.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.dense.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.dense.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.bias
2022-07-08 11:13:34,192 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.dense.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.dense.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.weight
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.bias
2022-07-08 11:13:34,193 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.dense.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.dense.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.dense.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.dense.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.bias
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.weight
2022-07-08 11:13:34,194 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.dense.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.dense.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.bias
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.weight
2022-07-08 11:13:34,195 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.dense.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.dense.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.dense.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.dense.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.weight
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.bias
2022-07-08 11:13:34,196 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.weight
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.bias
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.weight
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.bias
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.weight
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.bias
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.weight
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.dense.bias
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.dense.weight
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.pooler.dense.bias
2022-07-08 11:13:34,197 - INFO - allennlp.nn.initializers -    _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.pooler.dense.weight
2022-07-08 11:14:48,207 - INFO - allennlp.common.params - trainer.type = gradient_descent
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.patience = 10
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.validation_metric = +coref_f1
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.num_epochs = 150
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.cuda_device = None
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.grad_norm = 5
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.grad_clipping = None
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.distributed = False
2022-07-08 11:14:48,208 - INFO - allennlp.common.params - trainer.world_size = 1
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.num_gradient_accumulation_steps = 1
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.use_amp = False
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.no_grad = None
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.momentum_scheduler = None
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.moving_average = None
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.checkpointer = <allennlp.common.lazy.Lazy object at 0x7f42286e8a60>
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.callbacks = None
2022-07-08 11:14:48,209 - INFO - allennlp.common.params - trainer.enable_default_callbacks = True
2022-07-08 11:14:51,366 - INFO - allennlp.common.params - trainer.optimizer.type = huggingface_adamw
2022-07-08 11:14:51,367 - INFO - allennlp.common.params - trainer.optimizer.lr = 0.001
2022-07-08 11:14:51,367 - INFO - allennlp.common.params - trainer.optimizer.betas = (0.9, 0.999)
2022-07-08 11:14:51,367 - INFO - allennlp.common.params - trainer.optimizer.eps = 1e-08
2022-07-08 11:14:51,367 - INFO - allennlp.common.params - trainer.optimizer.weight_decay = 0.01
2022-07-08 11:14:51,367 - INFO - allennlp.common.params - trainer.optimizer.correct_bias = True
2022-07-08 11:14:51,368 - INFO - allennlp.training.optimizers - Done constructing parameter groups.
2022-07-08 11:14:51,368 - INFO - allennlp.training.optimizers - Group 0: ['_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.position_embeddings.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.pooler.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.pooler.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.word_embeddings.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.token_type_embeddings.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.bias', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight', '_text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.bias'], {'lr': 1e-05}
2022-07-08 11:14:51,369 - INFO - allennlp.training.optimizers - Group 1: ['_context_layer._module.bias_ih_l0', '_context_layer._module.weight_ih_l0', '_mention_feedforward._module._linear_layers.1.bias', '_mention_feedforward._module._linear_layers.0.bias', '_mention_scorer._module.weight', '_mention_feedforward._module._linear_layers.1.weight', '_context_layer._module.weight_hh_l0', '_context_layer._module.bias_hh_l0', '_distance_embedding.weight', '_antecedent_scorer._module.weight', '_context_layer._module.weight_ih_l0_reverse', '_mention_feedforward._module._linear_layers.0.weight', '_antecedent_feedforward._module._linear_layers.1.bias', '_context_layer._module.weight_hh_l0_reverse', '_antecedent_feedforward._module._linear_layers.1.weight', '_context_layer._module.bias_ih_l0_reverse', '_antecedent_feedforward._module._linear_layers.0.bias', '_endpoint_span_extractor._span_width_embedding.weight', '_context_layer._module.bias_hh_l0_reverse', '_antecedent_feedforward._module._linear_layers.0.weight', '_antecedent_scorer._module.bias', '_attentive_span_extractor._global_attention._module.bias', '_attentive_span_extractor._global_attention._module.weight', '_mention_scorer._module.bias'], {}
2022-07-08 11:14:51,369 - INFO - allennlp.training.optimizers - Number of trainable parameters: 180408511
2022-07-08 11:14:51,369 - INFO - allennlp.common.util - The following parameters are Frozen (without gradient):
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - The following parameters are Tunable (with gradient):
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.word_embeddings.weight
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.position_embeddings.weight
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.token_type_embeddings.weight
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.LayerNorm.weight
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.embeddings.LayerNorm.bias
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.weight
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.query.bias
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.weight
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.key.bias
2022-07-08 11:14:51,370 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.weight
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.self.value.bias
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.weight
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.dense.bias
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.weight
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.intermediate.dense.bias
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.dense.weight
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.dense.bias
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.weight
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.0.output.LayerNorm.bias
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.weight
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.query.bias
2022-07-08 11:14:51,371 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.weight
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.key.bias
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.weight
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.self.value.bias
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.weight
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.dense.bias
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.weight
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.intermediate.dense.bias
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.dense.weight
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.dense.bias
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.weight
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.1.output.LayerNorm.bias
2022-07-08 11:14:51,372 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.query.bias
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.key.bias
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.self.value.bias
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.dense.bias
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.intermediate.dense.bias
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.dense.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.dense.bias
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.weight
2022-07-08 11:14:51,373 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.2.output.LayerNorm.bias
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.weight
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.query.bias
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.weight
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.key.bias
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.weight
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.self.value.bias
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.weight
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.dense.bias
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.weight
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.intermediate.dense.bias
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.dense.weight
2022-07-08 11:14:51,374 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.dense.bias
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.weight
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.3.output.LayerNorm.bias
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.weight
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.query.bias
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.weight
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.key.bias
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.weight
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.self.value.bias
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.weight
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.dense.bias
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.weight
2022-07-08 11:14:51,375 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.intermediate.dense.bias
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.dense.weight
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.dense.bias
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.weight
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.4.output.LayerNorm.bias
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.weight
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.query.bias
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.weight
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.key.bias
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.weight
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.self.value.bias
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.weight
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.dense.bias
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight
2022-07-08 11:14:51,376 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.weight
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.intermediate.dense.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.dense.weight
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.dense.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.weight
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.5.output.LayerNorm.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.weight
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.query.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.weight
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.key.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.weight
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.self.value.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.weight
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.dense.bias
2022-07-08 11:14:51,377 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.intermediate.dense.bias
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.dense.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.dense.bias
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.6.output.LayerNorm.bias
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.query.bias
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.key.bias
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.self.value.bias
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.weight
2022-07-08 11:14:51,378 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.dense.bias
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.weight
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.intermediate.dense.bias
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.dense.weight
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.dense.bias
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.weight
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.7.output.LayerNorm.bias
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.weight
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.query.bias
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.weight
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.key.bias
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.weight
2022-07-08 11:14:51,379 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.self.value.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.weight
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.dense.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.weight
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.intermediate.dense.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.dense.weight
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.dense.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.weight
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.8.output.LayerNorm.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.weight
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.query.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.weight
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.key.bias
2022-07-08 11:14:51,380 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.self.value.bias
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.dense.bias
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.intermediate.dense.bias
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.dense.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.dense.bias
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.9.output.LayerNorm.bias
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.query.bias
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.weight
2022-07-08 11:14:51,381 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.key.bias
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.weight
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.self.value.bias
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.weight
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.dense.bias
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.weight
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.intermediate.dense.bias
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.dense.weight
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.dense.bias
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.weight
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.10.output.LayerNorm.bias
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.weight
2022-07-08 11:14:51,382 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.query.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.weight
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.key.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.weight
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.self.value.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.weight
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.dense.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.weight
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.intermediate.dense.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.dense.weight
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.dense.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.weight
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.encoder.layer.11.output.LayerNorm.bias
2022-07-08 11:14:51,383 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.pooler.dense.weight
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _text_field_embedder.token_embedder_tokens._matched_embedder.transformer_model.pooler.dense.bias
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.weight_ih_l0
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.weight_hh_l0
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.bias_ih_l0
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.bias_hh_l0
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.weight_ih_l0_reverse
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.weight_hh_l0_reverse
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.bias_ih_l0_reverse
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _context_layer._module.bias_hh_l0_reverse
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _mention_feedforward._module._linear_layers.0.weight
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _mention_feedforward._module._linear_layers.0.bias
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _mention_feedforward._module._linear_layers.1.weight
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _mention_feedforward._module._linear_layers.1.bias
2022-07-08 11:14:51,384 - INFO - allennlp.common.util - _mention_scorer._module.weight
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _mention_scorer._module.bias
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _antecedent_feedforward._module._linear_layers.0.weight
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _antecedent_feedforward._module._linear_layers.0.bias
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _antecedent_feedforward._module._linear_layers.1.weight
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _antecedent_feedforward._module._linear_layers.1.bias
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _antecedent_scorer._module.weight
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _antecedent_scorer._module.bias
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _endpoint_span_extractor._span_width_embedding.weight
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _attentive_span_extractor._global_attention._module.weight
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _attentive_span_extractor._global_attention._module.bias
2022-07-08 11:14:51,385 - INFO - allennlp.common.util - _distance_embedding.weight
2022-07-08 11:14:51,385 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = reduce_on_plateau
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.mode = max
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.factor = 0.5
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.patience = 2
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.verbose = False
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.threshold_mode = rel
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.threshold = 0.0001
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.cooldown = 0
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.min_lr = 0
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.eps = 1e-08
2022-07-08 11:14:51,386 - INFO - allennlp.common.params - type = default
2022-07-08 11:14:51,387 - INFO - allennlp.common.params - keep_serialized_model_every_num_seconds = None
2022-07-08 11:14:51,387 - INFO - allennlp.common.params - num_serialized_models_to_keep = 2
2022-07-08 11:14:51,387 - INFO - allennlp.common.params - model_save_interval = None
2022-07-08 11:14:51,388 - INFO - allennlp.training.trainer - Beginning training.
2022-07-08 11:14:51,388 - INFO - allennlp.training.trainer - Epoch 0/149
2022-07-08 11:14:51,388 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 11:14:51,388 - INFO - allennlp.training.trainer - GPU 0 memory usage: 691M
2022-07-08 11:14:51,389 - INFO - allennlp.training.trainer - Training
2022-07-08 11:14:51,389 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 11:15:01,457 - INFO - tqdm - coref_precision: 0.0138, coref_recall: 0.0007, coref_f1: 0.0009, mention_recall: 0.1887, batch_loss: 113.1446, loss: 127.5528 ||:   2%|2         | 60/2851 [00:10<05:29,  8.46it/s]
2022-07-08 11:15:11,570 - INFO - tqdm - coref_precision: 0.3271, coref_recall: 0.0255, coref_f1: 0.0468, mention_recall: 0.4633, batch_loss: 241.9008, loss: 119.3468 ||:   5%|4         | 138/2851 [00:20<05:59,  7.55it/s]
2022-07-08 11:15:21,682 - INFO - tqdm - coref_precision: 0.4627, coref_recall: 0.0730, coref_f1: 0.1254, mention_recall: 0.5842, batch_loss: 92.9696, loss: 109.9484 ||:   8%|7         | 215/2851 [00:30<05:05,  8.62it/s]
2022-07-08 11:15:31,908 - INFO - tqdm - coref_precision: 0.5339, coref_recall: 0.1214, coref_f1: 0.1970, mention_recall: 0.6699, batch_loss: 152.5146, loss: 101.4454 ||:  10%|#         | 296/2851 [00:40<05:42,  7.46it/s]
2022-07-08 11:15:42,017 - INFO - tqdm - coref_precision: 0.5643, coref_recall: 0.1631, coref_f1: 0.2521, mention_recall: 0.7204, batch_loss: 62.8987, loss: 95.8449 ||:  13%|#3        | 371/2851 [00:50<05:19,  7.77it/s]
2022-07-08 11:15:52,129 - INFO - tqdm - coref_precision: 0.5974, coref_recall: 0.2067, coref_f1: 0.3063, mention_recall: 0.7620, batch_loss: 60.4733, loss: 92.0225 ||:  16%|#5        | 450/2851 [01:00<05:22,  7.45it/s]
2022-07-08 11:16:02,277 - INFO - tqdm - coref_precision: 0.6037, coref_recall: 0.2384, coref_f1: 0.3411, mention_recall: 0.7882, batch_loss: 83.0853, loss: 91.0793 ||:  18%|#7        | 511/2851 [01:10<08:13,  4.74it/s]
2022-07-08 11:16:12,359 - INFO - tqdm - coref_precision: 0.6158, coref_recall: 0.2637, coref_f1: 0.3687, mention_recall: 0.8072, batch_loss: 42.0125, loss: 86.9116 ||:  21%|##        | 585/2851 [01:20<04:45,  7.94it/s]
2022-07-08 11:16:22,605 - INFO - tqdm - coref_precision: 0.6346, coref_recall: 0.2918, coref_f1: 0.3992, mention_recall: 0.8250, batch_loss: 357.8776, loss: 83.1297 ||:  23%|##3       | 663/2851 [01:31<07:52,  4.63it/s]
2022-07-08 11:16:32,608 - INFO - tqdm - coref_precision: 0.6422, coref_recall: 0.3081, coref_f1: 0.4159, mention_recall: 0.8349, batch_loss: 14.2933, loss: 80.4165 ||:  25%|##5       | 720/2851 [01:41<03:29, 10.15it/s]
2022-07-08 11:16:42,833 - INFO - tqdm - coref_precision: 0.6537, coref_recall: 0.3294, coref_f1: 0.4376, mention_recall: 0.8477, batch_loss: 79.3069, loss: 77.5762 ||:  28%|##7       | 798/2851 [01:51<05:41,  6.00it/s]
2022-07-08 11:16:52,859 - INFO - tqdm - coref_precision: 0.6624, coref_recall: 0.3467, coref_f1: 0.4547, mention_recall: 0.8572, batch_loss: 19.1554, loss: 74.6864 ||:  31%|###       | 879/2851 [02:01<04:08,  7.93it/s]
2022-07-08 11:17:03,014 - INFO - tqdm - coref_precision: 0.6712, coref_recall: 0.3641, coref_f1: 0.4716, mention_recall: 0.8669, batch_loss: 32.5517, loss: 72.9589 ||:  33%|###3      | 951/2851 [02:11<04:39,  6.79it/s]
2022-07-08 11:17:13,069 - INFO - tqdm - coref_precision: 0.6796, coref_recall: 0.3801, coref_f1: 0.4871, mention_recall: 0.8742, batch_loss: 27.9380, loss: 70.8214 ||:  36%|###6      | 1030/2851 [02:21<04:00,  7.58it/s]
2022-07-08 11:17:23,228 - INFO - tqdm - coref_precision: 0.6842, coref_recall: 0.3917, coref_f1: 0.4978, mention_recall: 0.8798, batch_loss: 54.5995, loss: 68.3663 ||:  39%|###9      | 1118/2851 [02:31<03:28,  8.33it/s]
2022-07-08 11:17:33,249 - INFO - tqdm - coref_precision: 0.6881, coref_recall: 0.4008, coref_f1: 0.5062, mention_recall: 0.8848, batch_loss: 9.7995, loss: 67.5499 ||:  42%|####1     | 1191/2851 [02:41<03:49,  7.24it/s]
2022-07-08 11:17:43,537 - INFO - tqdm - coref_precision: 0.6937, coref_recall: 0.4115, coref_f1: 0.5162, mention_recall: 0.8902, batch_loss: 74.3690, loss: 66.3811 ||:  45%|####4     | 1269/2851 [02:52<04:51,  5.43it/s]
2022-07-08 11:17:53,594 - INFO - tqdm - coref_precision: 0.6983, coref_recall: 0.4220, coref_f1: 0.5257, mention_recall: 0.8943, batch_loss: 94.9507, loss: 65.0060 ||:  47%|####7     | 1347/2851 [03:02<03:43,  6.74it/s]
2022-07-08 11:18:03,623 - INFO - tqdm - coref_precision: 0.6999, coref_recall: 0.4303, coref_f1: 0.5326, mention_recall: 0.8990, batch_loss: 9.7258, loss: 64.5151 ||:  50%|####9     | 1418/2851 [03:12<02:53,  8.25it/s]
2022-07-08 11:18:13,778 - INFO - tqdm - coref_precision: 0.7021, coref_recall: 0.4370, coref_f1: 0.5384, mention_recall: 0.9023, batch_loss: 62.9414, loss: 64.1805 ||:  52%|#####1    | 1481/2851 [03:22<02:45,  8.27it/s]
2022-07-08 11:18:24,055 - INFO - tqdm - coref_precision: 0.7026, coref_recall: 0.4403, coref_f1: 0.5411, mention_recall: 0.9049, batch_loss: 845.9071, loss: 63.7275 ||:  55%|#####4    | 1554/2851 [03:32<05:31,  3.91it/s]
2022-07-08 11:18:34,162 - INFO - tqdm - coref_precision: 0.7067, coref_recall: 0.4471, coref_f1: 0.5474, mention_recall: 0.9075, batch_loss: 28.6537, loss: 62.4144 ||:  57%|#####7    | 1637/2851 [03:42<02:09,  9.38it/s]
2022-07-08 11:18:44,166 - INFO - tqdm - coref_precision: 0.7105, coref_recall: 0.4556, coref_f1: 0.5549, mention_recall: 0.9106, batch_loss: 50.8262, loss: 61.4662 ||:  60%|######    | 1714/2851 [03:52<02:11,  8.63it/s]
2022-07-08 11:18:54,466 - INFO - tqdm - coref_precision: 0.7092, coref_recall: 0.4602, coref_f1: 0.5579, mention_recall: 0.9128, batch_loss: 138.7786, loss: 61.5905 ||:  62%|######2   | 1773/2851 [04:03<02:33,  7.03it/s]
2022-07-08 11:19:04,474 - INFO - tqdm - coref_precision: 0.7114, coref_recall: 0.4646, coref_f1: 0.5618, mention_recall: 0.9143, batch_loss: 14.0020, loss: 61.0368 ||:  65%|######4   | 1851/2851 [04:13<01:59,  8.34it/s]
2022-07-08 11:19:14,484 - INFO - tqdm - coref_precision: 0.7142, coref_recall: 0.4701, coref_f1: 0.5667, mention_recall: 0.9165, batch_loss: 2.1111, loss: 60.0509 ||:  68%|######7   | 1932/2851 [04:23<01:33,  9.86it/s]
2022-07-08 11:19:24,744 - INFO - tqdm - coref_precision: 0.7153, coref_recall: 0.4738, coref_f1: 0.5698, mention_recall: 0.9184, batch_loss: 112.2957, loss: 59.7888 ||:  70%|#######   | 2003/2851 [04:33<02:26,  5.77it/s]
2022-07-08 11:19:34,819 - INFO - tqdm - coref_precision: 0.7161, coref_recall: 0.4764, coref_f1: 0.5719, mention_recall: 0.9195, batch_loss: 27.2171, loss: 59.0403 ||:  73%|#######3  | 2082/2851 [04:43<01:45,  7.28it/s]
2022-07-08 11:19:44,884 - INFO - tqdm - coref_precision: 0.7187, coref_recall: 0.4809, coref_f1: 0.5759, mention_recall: 0.9210, batch_loss: 43.4294, loss: 58.7142 ||:  75%|#######5  | 2150/2851 [04:53<01:38,  7.14it/s]
2022-07-08 11:19:54,896 - INFO - tqdm - coref_precision: 0.7207, coref_recall: 0.4855, coref_f1: 0.5799, mention_recall: 0.9227, batch_loss: 34.8253, loss: 58.3983 ||:  78%|#######7  | 2222/2851 [05:03<01:25,  7.39it/s]
2022-07-08 11:20:04,927 - INFO - tqdm - coref_precision: 0.7215, coref_recall: 0.4892, coref_f1: 0.5828, mention_recall: 0.9238, batch_loss: 36.3739, loss: 57.9260 ||:  80%|########  | 2293/2851 [05:13<01:17,  7.24it/s]
2022-07-08 11:20:14,992 - INFO - tqdm - coref_precision: 0.7229, coref_recall: 0.4927, coref_f1: 0.5858, mention_recall: 0.9251, batch_loss: 23.9618, loss: 57.3928 ||:  83%|########3 | 2370/2851 [05:23<00:53,  8.91it/s]
2022-07-08 11:20:25,087 - INFO - tqdm - coref_precision: 0.7240, coref_recall: 0.4953, coref_f1: 0.5880, mention_recall: 0.9265, batch_loss: 45.0046, loss: 56.8132 ||:  86%|########5 | 2447/2851 [05:33<00:50,  8.02it/s]
2022-07-08 11:20:35,190 - INFO - tqdm - coref_precision: 0.7249, coref_recall: 0.4986, coref_f1: 0.5906, mention_recall: 0.9278, batch_loss: 11.7281, loss: 56.3373 ||:  89%|########8 | 2524/2851 [05:43<00:36,  8.90it/s]
2022-07-08 11:20:45,228 - INFO - tqdm - coref_precision: 0.7269, coref_recall: 0.5030, coref_f1: 0.5943, mention_recall: 0.9292, batch_loss: 39.7941, loss: 55.7422 ||:  91%|#########1| 2602/2851 [05:53<00:41,  6.06it/s]
2022-07-08 11:20:55,409 - INFO - tqdm - coref_precision: 0.7280, coref_recall: 0.5063, coref_f1: 0.5970, mention_recall: 0.9303, batch_loss: 97.5591, loss: 55.2749 ||:  94%|#########4| 2681/2851 [06:04<00:23,  7.24it/s]
2022-07-08 11:21:05,455 - INFO - tqdm - coref_precision: 0.7293, coref_recall: 0.5089, coref_f1: 0.5993, mention_recall: 0.9313, batch_loss: 25.4749, loss: 54.9314 ||:  97%|#########6| 2758/2851 [06:14<00:10,  8.51it/s]
2022-07-08 11:21:15,046 - INFO - tqdm - coref_precision: 0.7315, coref_recall: 0.5132, coref_f1: 0.6030, mention_recall: 0.9325, batch_loss: 15.0383, loss: 54.2836 ||: 100%|#########9| 2838/2851 [06:23<00:01,  9.51it/s]
2022-07-08 11:21:15,228 - INFO - tqdm - coref_precision: 0.7316, coref_recall: 0.5132, coref_f1: 0.6030, mention_recall: 0.9326, batch_loss: 5.5134, loss: 54.2508 ||: 100%|#########9| 2840/2851 [06:23<00:01,  9.96it/s]
2022-07-08 11:21:15,384 - INFO - tqdm - coref_precision: 0.7316, coref_recall: 0.5133, coref_f1: 0.6031, mention_recall: 0.9326, batch_loss: 70.7066, loss: 54.2566 ||: 100%|#########9| 2841/2851 [06:23<00:01,  8.98it/s]
2022-07-08 11:21:15,545 - INFO - tqdm - coref_precision: 0.7316, coref_recall: 0.5134, coref_f1: 0.6031, mention_recall: 0.9326, batch_loss: 32.6996, loss: 54.2490 ||: 100%|#########9| 2842/2851 [06:24<00:01,  8.17it/s]
2022-07-08 11:21:15,715 - INFO - tqdm - coref_precision: 0.7316, coref_recall: 0.5133, coref_f1: 0.6031, mention_recall: 0.9326, batch_loss: 44.7230, loss: 54.2335 ||: 100%|#########9| 2844/2851 [06:24<00:00,  9.27it/s]
2022-07-08 11:21:15,894 - INFO - tqdm - coref_precision: 0.7317, coref_recall: 0.5135, coref_f1: 0.6032, mention_recall: 0.9326, batch_loss: 48.8563, loss: 54.2316 ||: 100%|#########9| 2845/2851 [06:24<00:00,  8.11it/s]
2022-07-08 11:21:16,124 - INFO - tqdm - coref_precision: 0.7317, coref_recall: 0.5135, coref_f1: 0.6033, mention_recall: 0.9327, batch_loss: 62.4913, loss: 54.2182 ||: 100%|#########9| 2847/2851 [06:24<00:00,  8.33it/s]
2022-07-08 11:21:16,262 - INFO - tqdm - coref_precision: 0.7317, coref_recall: 0.5135, coref_f1: 0.6033, mention_recall: 0.9327, batch_loss: 66.4132, loss: 54.2225 ||: 100%|#########9| 2848/2851 [06:24<00:00,  8.06it/s]
2022-07-08 11:21:16,377 - INFO - tqdm - coref_precision: 0.7317, coref_recall: 0.5135, coref_f1: 0.6033, mention_recall: 0.9327, batch_loss: 68.1624, loss: 54.2273 ||: 100%|#########9| 2849/2851 [06:24<00:00,  8.21it/s]
2022-07-08 11:21:16,544 - INFO - tqdm - coref_precision: 0.7318, coref_recall: 0.5136, coref_f1: 0.6033, mention_recall: 0.9327, batch_loss: 8.1653, loss: 54.2011 ||: 100%|##########| 2851/2851 [06:25<00:00,  9.40it/s]
2022-07-08 11:21:16,545 - INFO - tqdm - coref_precision: 0.7318, coref_recall: 0.5136, coref_f1: 0.6033, mention_recall: 0.9327, batch_loss: 8.1653, loss: 54.2011 ||: 100%|##########| 2851/2851 [06:25<00:00,  7.40it/s]
2022-07-08 11:21:17,422 - INFO - allennlp.training.trainer - Validating
2022-07-08 11:21:17,423 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 11:21:27,460 - INFO - tqdm - coref_precision: 0.7312, coref_recall: 0.6916, coref_f1: 0.7106, mention_recall: 0.9741, batch_loss: 26.1741, loss: 43.0083 ||:  37%|###6      | 145/397 [00:10<00:09, 25.99it/s]
2022-07-08 11:21:37,516 - INFO - tqdm - coref_precision: 0.7439, coref_recall: 0.7121, coref_f1: 0.7273, mention_recall: 0.9777, batch_loss: 28.9936, loss: 38.4336 ||:  91%|######### | 361/397 [00:20<00:01, 19.80it/s]
2022-07-08 11:21:39,180 - INFO - tqdm - coref_precision: 0.7419, coref_recall: 0.7102, coref_f1: 0.7255, mention_recall: 0.9770, batch_loss: 49.2966, loss: 38.9107 ||: 100%|#########9| 396/397 [00:21<00:00, 15.03it/s]
2022-07-08 11:21:39,196 - INFO - tqdm - coref_precision: 0.7419, coref_recall: 0.7102, coref_f1: 0.7255, mention_recall: 0.9770, batch_loss: 1.7542, loss: 38.8171 ||: 100%|##########| 397/397 [00:21<00:00, 18.23it/s]
2022-07-08 11:21:40,920 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.603  |     0.726
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.732  |     0.742
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.514  |     0.710
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |   690.568  |       N/A
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger - loss               |    54.201  |    38.817
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.933  |     0.977
2022-07-08 11:21:41,235 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 11:21:41,235 - INFO - allennlp.training.trainer - Epoch duration: 0:06:49.847021
2022-07-08 11:21:41,235 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:57:47
2022-07-08 11:21:41,235 - INFO - allennlp.training.trainer - Epoch 1/149
2022-07-08 11:21:41,235 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 11:21:41,236 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 11:21:41,237 - INFO - allennlp.training.trainer - Training
2022-07-08 11:21:41,237 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 11:21:51,417 - INFO - tqdm - coref_precision: 0.7874, coref_recall: 0.6202, coref_f1: 0.6937, mention_recall: 0.9690, batch_loss: 66.5801, loss: 45.2540 ||:   2%|2         | 67/2851 [00:10<07:59,  5.81it/s]
2022-07-08 11:22:01,486 - INFO - tqdm - coref_precision: 0.7812, coref_recall: 0.6222, coref_f1: 0.6925, mention_recall: 0.9711, batch_loss: 40.6481, loss: 42.6784 ||:   5%|4         | 142/2851 [00:20<05:48,  7.78it/s]
2022-07-08 11:22:11,521 - INFO - tqdm - coref_precision: 0.7813, coref_recall: 0.6277, coref_f1: 0.6960, mention_recall: 0.9707, batch_loss: 50.0850, loss: 42.7402 ||:   7%|7         | 209/2851 [00:30<05:14,  8.41it/s]
2022-07-08 11:22:22,515 - INFO - tqdm - coref_precision: 0.7774, coref_recall: 0.6327, coref_f1: 0.6975, mention_recall: 0.9723, batch_loss: 239.5259, loss: 44.6640 ||:  10%|9         | 276/2851 [00:41<16:06,  2.66it/s]
2022-07-08 11:22:32,581 - INFO - tqdm - coref_precision: 0.7810, coref_recall: 0.6406, coref_f1: 0.7038, mention_recall: 0.9741, batch_loss: 80.0517, loss: 43.4288 ||:  12%|#2        | 350/2851 [00:51<06:04,  6.87it/s]
2022-07-08 11:22:42,659 - INFO - tqdm - coref_precision: 0.7838, coref_recall: 0.6483, coref_f1: 0.7095, mention_recall: 0.9740, batch_loss: 16.3223, loss: 40.5315 ||:  15%|#5        | 431/2851 [01:01<05:49,  6.92it/s]
2022-07-08 11:22:52,768 - INFO - tqdm - coref_precision: 0.7807, coref_recall: 0.6444, coref_f1: 0.7059, mention_recall: 0.9712, batch_loss: 61.5703, loss: 41.4229 ||:  18%|#7        | 504/2851 [01:11<05:01,  7.79it/s]
2022-07-08 11:23:02,848 - INFO - tqdm - coref_precision: 0.7843, coref_recall: 0.6481, coref_f1: 0.7096, mention_recall: 0.9724, batch_loss: 35.6306, loss: 40.6857 ||:  20%|##        | 580/2851 [01:21<04:40,  8.09it/s]
2022-07-08 11:23:12,896 - INFO - tqdm - coref_precision: 0.7874, coref_recall: 0.6533, coref_f1: 0.7140, mention_recall: 0.9730, batch_loss: 7.4603, loss: 39.6420 ||:  23%|##3       | 661/2851 [01:31<04:38,  7.86it/s]
2022-07-08 11:23:22,944 - INFO - tqdm - coref_precision: 0.7892, coref_recall: 0.6553, coref_f1: 0.7160, mention_recall: 0.9730, batch_loss: 11.5554, loss: 38.9002 ||:  26%|##5       | 736/2851 [01:41<06:23,  5.52it/s]
2022-07-08 11:23:33,092 - INFO - tqdm - coref_precision: 0.7904, coref_recall: 0.6578, coref_f1: 0.7179, mention_recall: 0.9732, batch_loss: 24.3121, loss: 38.1302 ||:  29%|##8       | 815/2851 [01:51<03:37,  9.35it/s]
2022-07-08 11:23:43,265 - INFO - tqdm - coref_precision: 0.7934, coref_recall: 0.6594, coref_f1: 0.7201, mention_recall: 0.9725, batch_loss: 65.2845, loss: 36.9706 ||:  32%|###1      | 903/2851 [02:02<04:04,  7.96it/s]
2022-07-08 11:23:53,327 - INFO - tqdm - coref_precision: 0.7949, coref_recall: 0.6624, coref_f1: 0.7225, mention_recall: 0.9730, batch_loss: 19.0830, loss: 37.0296 ||:  34%|###4      | 972/2851 [02:12<03:50,  8.16it/s]
2022-07-08 11:24:03,441 - INFO - tqdm - coref_precision: 0.7937, coref_recall: 0.6622, coref_f1: 0.7219, mention_recall: 0.9737, batch_loss: 14.4340, loss: 37.3286 ||:  37%|###6      | 1044/2851 [02:22<04:15,  7.08it/s]
2022-07-08 11:24:13,466 - INFO - tqdm - coref_precision: 0.7945, coref_recall: 0.6633, coref_f1: 0.7229, mention_recall: 0.9736, batch_loss: 22.8258, loss: 36.8770 ||:  39%|###9      | 1120/2851 [02:32<04:15,  6.78it/s]
2022-07-08 11:24:23,685 - INFO - tqdm - coref_precision: 0.7927, coref_recall: 0.6634, coref_f1: 0.7222, mention_recall: 0.9737, batch_loss: 31.6780, loss: 36.7886 ||:  42%|####1     | 1196/2851 [02:42<03:47,  7.27it/s]
2022-07-08 11:24:33,773 - INFO - tqdm - coref_precision: 0.7936, coref_recall: 0.6622, coref_f1: 0.7219, mention_recall: 0.9739, batch_loss: 96.7174, loss: 37.0934 ||:  45%|####4     | 1270/2851 [02:52<04:04,  6.46it/s]
2022-07-08 11:24:43,810 - INFO - tqdm - coref_precision: 0.7941, coref_recall: 0.6629, coref_f1: 0.7225, mention_recall: 0.9738, batch_loss: 16.8027, loss: 36.5455 ||:  47%|####7     | 1354/2851 [03:02<02:35,  9.65it/s]
2022-07-08 11:24:53,926 - INFO - tqdm - coref_precision: 0.7937, coref_recall: 0.6613, coref_f1: 0.7214, mention_recall: 0.9730, batch_loss: 53.4845, loss: 36.4789 ||:  50%|#####     | 1429/2851 [03:12<03:33,  6.67it/s]
2022-07-08 11:25:03,970 - INFO - tqdm - coref_precision: 0.7939, coref_recall: 0.6616, coref_f1: 0.7216, mention_recall: 0.9732, batch_loss: 18.6237, loss: 36.3148 ||:  53%|#####2    | 1511/2851 [03:22<02:29,  8.97it/s]
2022-07-08 11:25:14,026 - INFO - tqdm - coref_precision: 0.7945, coref_recall: 0.6626, coref_f1: 0.7225, mention_recall: 0.9731, batch_loss: 159.6927, loss: 36.3251 ||:  56%|#####5    | 1586/2851 [03:32<03:16,  6.44it/s]
2022-07-08 11:25:24,056 - INFO - tqdm - coref_precision: 0.7946, coref_recall: 0.6634, coref_f1: 0.7230, mention_recall: 0.9734, batch_loss: 41.0816, loss: 36.0823 ||:  59%|#####8    | 1670/2851 [03:42<02:56,  6.69it/s]
2022-07-08 11:25:34,117 - INFO - tqdm - coref_precision: 0.7963, coref_recall: 0.6650, coref_f1: 0.7246, mention_recall: 0.9740, batch_loss: 46.2213, loss: 36.0344 ||:  61%|######1   | 1747/2851 [03:52<02:12,  8.31it/s]
2022-07-08 11:25:44,353 - INFO - tqdm - coref_precision: 0.7960, coref_recall: 0.6627, coref_f1: 0.7231, mention_recall: 0.9742, batch_loss: 152.9556, loss: 36.4484 ||:  64%|######3   | 1820/2851 [04:03<02:38,  6.52it/s]
2022-07-08 11:25:55,466 - INFO - tqdm - coref_precision: 0.7964, coref_recall: 0.6633, coref_f1: 0.7237, mention_recall: 0.9741, batch_loss: 21.9010, loss: 36.2524 ||:  66%|######6   | 1894/2851 [04:14<11:29,  1.39it/s]
2022-07-08 11:26:06,250 - INFO - tqdm - coref_precision: 0.7959, coref_recall: 0.6627, coref_f1: 0.7231, mention_recall: 0.9741, batch_loss: 987.4395, loss: 36.6352 ||:  69%|######8   | 1967/2851 [04:25<06:28,  2.27it/s]
2022-07-08 11:26:16,279 - INFO - tqdm - coref_precision: 0.7964, coref_recall: 0.6631, coref_f1: 0.7236, mention_recall: 0.9742, batch_loss: 37.1745, loss: 36.4240 ||:  72%|#######1  | 2047/2851 [04:35<01:37,  8.25it/s]
2022-07-08 11:26:26,426 - INFO - tqdm - coref_precision: 0.7966, coref_recall: 0.6642, coref_f1: 0.7243, mention_recall: 0.9742, batch_loss: 18.0038, loss: 36.2528 ||:  75%|#######4  | 2129/2851 [04:45<01:13,  9.88it/s]
2022-07-08 11:26:36,555 - INFO - tqdm - coref_precision: 0.7974, coref_recall: 0.6657, coref_f1: 0.7255, mention_recall: 0.9746, batch_loss: 42.0794, loss: 35.9715 ||:  78%|#######7  | 2211/2851 [04:55<01:08,  9.35it/s]
2022-07-08 11:26:46,611 - INFO - tqdm - coref_precision: 0.7976, coref_recall: 0.6656, coref_f1: 0.7255, mention_recall: 0.9747, batch_loss: 6.4616, loss: 35.9938 ||:  80%|########  | 2283/2851 [05:05<01:01,  9.26it/s]
2022-07-08 11:26:56,743 - INFO - tqdm - coref_precision: 0.7957, coref_recall: 0.6652, coref_f1: 0.7245, mention_recall: 0.9743, batch_loss: 24.2400, loss: 36.3083 ||:  82%|########2 | 2346/2851 [05:15<00:55,  9.04it/s]
2022-07-08 11:27:06,825 - INFO - tqdm - coref_precision: 0.7955, coref_recall: 0.6652, coref_f1: 0.7244, mention_recall: 0.9742, batch_loss: 23.7093, loss: 36.2595 ||:  85%|########5 | 2425/2851 [05:25<00:55,  7.66it/s]
2022-07-08 11:27:16,846 - INFO - tqdm - coref_precision: 0.7953, coref_recall: 0.6653, coref_f1: 0.7244, mention_recall: 0.9742, batch_loss: 2.2523, loss: 36.2668 ||:  88%|########7 | 2502/2851 [05:35<00:35,  9.87it/s]
2022-07-08 11:27:26,868 - INFO - tqdm - coref_precision: 0.7957, coref_recall: 0.6657, coref_f1: 0.7248, mention_recall: 0.9743, batch_loss: 26.5574, loss: 36.2241 ||:  90%|######### | 2578/2851 [05:45<00:32,  8.42it/s]
2022-07-08 11:27:36,958 - INFO - tqdm - coref_precision: 0.7962, coref_recall: 0.6667, coref_f1: 0.7256, mention_recall: 0.9746, batch_loss: 32.1787, loss: 36.0257 ||:  93%|#########3| 2661/2851 [05:55<00:24,  7.68it/s]
2022-07-08 11:27:47,102 - INFO - tqdm - coref_precision: 0.7960, coref_recall: 0.6666, coref_f1: 0.7255, mention_recall: 0.9744, batch_loss: 47.4201, loss: 36.0996 ||:  96%|#########6| 2737/2851 [06:05<00:14,  7.86it/s]
2022-07-08 11:27:57,629 - INFO - tqdm - coref_precision: 0.7959, coref_recall: 0.6656, coref_f1: 0.7248, mention_recall: 0.9742, batch_loss: 245.7632, loss: 36.0548 ||:  99%|#########8| 2818/2851 [06:16<00:07,  4.15it/s]
2022-07-08 11:28:00,299 - INFO - tqdm - coref_precision: 0.7960, coref_recall: 0.6656, coref_f1: 0.7249, mention_recall: 0.9742, batch_loss: 18.8091, loss: 36.0302 ||: 100%|#########9| 2837/2851 [06:19<00:01,  7.19it/s]
2022-07-08 11:28:00,534 - INFO - tqdm - coref_precision: 0.7960, coref_recall: 0.6656, coref_f1: 0.7249, mention_recall: 0.9742, batch_loss: 37.9720, loss: 36.0206 ||: 100%|#########9| 2839/2851 [06:19<00:01,  7.60it/s]
2022-07-08 11:28:00,717 - INFO - tqdm - coref_precision: 0.7959, coref_recall: 0.6657, coref_f1: 0.7249, mention_recall: 0.9743, batch_loss: 62.7544, loss: 36.0300 ||: 100%|#########9| 2840/2851 [06:19<00:01,  7.05it/s]
2022-07-08 11:28:00,902 - INFO - tqdm - coref_precision: 0.7959, coref_recall: 0.6657, coref_f1: 0.7249, mention_recall: 0.9743, batch_loss: 17.6564, loss: 36.0230 ||: 100%|#########9| 2842/2851 [06:19<00:01,  8.07it/s]
2022-07-08 11:28:01,002 - INFO - tqdm - coref_precision: 0.7959, coref_recall: 0.6658, coref_f1: 0.7249, mention_recall: 0.9743, batch_loss: 28.1669, loss: 36.0202 ||: 100%|#########9| 2843/2851 [06:19<00:00,  8.40it/s]
2022-07-08 11:28:01,218 - INFO - tqdm - coref_precision: 0.7959, coref_recall: 0.6659, coref_f1: 0.7250, mention_recall: 0.9743, batch_loss: 35.2668, loss: 36.0100 ||: 100%|#########9| 2845/2851 [06:19<00:00,  8.70it/s]
2022-07-08 11:28:01,683 - INFO - tqdm - coref_precision: 0.7959, coref_recall: 0.6658, coref_f1: 0.7250, mention_recall: 0.9743, batch_loss: 215.0549, loss: 36.0729 ||: 100%|#########9| 2846/2851 [06:20<00:00,  5.32it/s]
2022-07-08 11:28:01,849 - INFO - tqdm - coref_precision: 0.7958, coref_recall: 0.6658, coref_f1: 0.7249, mention_recall: 0.9743, batch_loss: 54.6312, loss: 36.0794 ||: 100%|#########9| 2847/2851 [06:20<00:00,  5.46it/s]
2022-07-08 11:28:02,045 - INFO - tqdm - coref_precision: 0.7958, coref_recall: 0.6657, coref_f1: 0.7249, mention_recall: 0.9743, batch_loss: 24.6623, loss: 36.0654 ||: 100%|#########9| 2849/2851 [06:20<00:00,  6.70it/s]
2022-07-08 11:28:02,274 - INFO - tqdm - coref_precision: 0.7958, coref_recall: 0.6658, coref_f1: 0.7249, mention_recall: 0.9743, batch_loss: 79.5006, loss: 36.0806 ||: 100%|#########9| 2850/2851 [06:21<00:00,  5.99it/s]
2022-07-08 11:28:02,360 - INFO - tqdm - coref_precision: 0.7958, coref_recall: 0.6658, coref_f1: 0.7249, mention_recall: 0.9743, batch_loss: 9.8562, loss: 36.0714 ||: 100%|##########| 2851/2851 [06:21<00:00,  7.48it/s]
2022-07-08 11:28:03,231 - INFO - allennlp.training.trainer - Validating
2022-07-08 11:28:03,232 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 11:28:13,353 - INFO - tqdm - coref_precision: 0.8061, coref_recall: 0.6925, coref_f1: 0.7449, mention_recall: 0.9748, batch_loss: 8.1655, loss: 30.9510 ||:  55%|#####5    | 219/397 [00:10<00:09, 19.46it/s]
2022-07-08 11:28:22,580 - INFO - tqdm - coref_precision: 0.7974, coref_recall: 0.6926, coref_f1: 0.7412, mention_recall: 0.9745, batch_loss: 9.8057, loss: 32.9178 ||: 100%|##########| 397/397 [00:19<00:00, 26.33it/s]
2022-07-08 11:28:22,580 - INFO - tqdm - coref_precision: 0.7974, coref_recall: 0.6926, coref_f1: 0.7412, mention_recall: 0.9745, batch_loss: 9.8057, loss: 32.9178 ||: 100%|##########| 397/397 [00:19<00:00, 20.52it/s]
2022-07-08 11:28:24,303 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 11:28:25,327 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 11:28:25,327 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.725  |     0.741
2022-07-08 11:28:25,327 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.796  |     0.797
2022-07-08 11:28:25,327 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.666  |     0.693
2022-07-08 11:28:25,327 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.492  |       N/A
2022-07-08 11:28:25,327 - INFO - allennlp.training.callbacks.console_logger - loss               |    36.071  |    32.918
2022-07-08 11:28:25,327 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.974  |     0.974
2022-07-08 11:28:25,328 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 11:28:25,328 - INFO - allennlp.training.trainer - Epoch duration: 0:06:44.092280
2022-07-08 11:28:25,328 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:43:51
2022-07-08 11:28:25,328 - INFO - allennlp.training.trainer - Epoch 2/149
2022-07-08 11:28:25,328 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 11:28:25,329 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 11:28:25,330 - INFO - allennlp.training.trainer - Training
2022-07-08 11:28:25,330 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 11:28:35,367 - INFO - tqdm - coref_precision: 0.8286, coref_recall: 0.7067, coref_f1: 0.7627, mention_recall: 0.9848, batch_loss: 40.0873, loss: 27.1533 ||:   3%|2         | 81/2851 [00:10<05:29,  8.40it/s]
2022-07-08 11:28:45,426 - INFO - tqdm - coref_precision: 0.8316, coref_recall: 0.7161, coref_f1: 0.7695, mention_recall: 0.9808, batch_loss: 82.2419, loss: 27.6101 ||:   5%|5         | 147/2851 [00:20<15:11,  2.97it/s]
2022-07-08 11:28:55,462 - INFO - tqdm - coref_precision: 0.8310, coref_recall: 0.7124, coref_f1: 0.7670, mention_recall: 0.9799, batch_loss: 88.4922, loss: 27.4961 ||:   8%|7         | 222/2851 [00:30<07:59,  5.49it/s]
2022-07-08 11:29:05,636 - INFO - tqdm - coref_precision: 0.8288, coref_recall: 0.7120, coref_f1: 0.7658, mention_recall: 0.9803, batch_loss: 57.6760, loss: 26.5870 ||:  11%|#         | 307/2851 [00:40<05:07,  8.27it/s]
2022-07-08 11:29:15,656 - INFO - tqdm - coref_precision: 0.8332, coref_recall: 0.7222, coref_f1: 0.7736, mention_recall: 0.9817, batch_loss: 64.7184, loss: 26.0443 ||:  14%|#3        | 386/2851 [00:50<05:50,  7.03it/s]
2022-07-08 11:29:25,781 - INFO - tqdm - coref_precision: 0.8328, coref_recall: 0.7270, coref_f1: 0.7762, mention_recall: 0.9818, batch_loss: 84.4399, loss: 26.1610 ||:  16%|#6        | 464/2851 [01:00<05:57,  6.68it/s]
2022-07-08 11:29:35,817 - INFO - tqdm - coref_precision: 0.8330, coref_recall: 0.7252, coref_f1: 0.7753, mention_recall: 0.9810, batch_loss: 26.3558, loss: 26.6756 ||:  19%|#8        | 537/2851 [01:10<05:33,  6.93it/s]
2022-07-08 11:29:45,967 - INFO - tqdm - coref_precision: 0.8327, coref_recall: 0.7227, coref_f1: 0.7737, mention_recall: 0.9811, batch_loss: 6.1265, loss: 27.1412 ||:  22%|##1       | 617/2851 [01:20<06:18,  5.90it/s]
2022-07-08 11:29:56,035 - INFO - tqdm - coref_precision: 0.8324, coref_recall: 0.7211, coref_f1: 0.7727, mention_recall: 0.9807, batch_loss: 27.2064, loss: 27.1216 ||:  24%|##4       | 697/2851 [01:30<04:01,  8.91it/s]
2022-07-08 11:30:06,146 - INFO - tqdm - coref_precision: 0.8314, coref_recall: 0.7182, coref_f1: 0.7706, mention_recall: 0.9804, batch_loss: 9.1089, loss: 27.5905 ||:  27%|##7       | 770/2851 [01:40<03:45,  9.24it/s]
2022-07-08 11:30:16,192 - INFO - tqdm - coref_precision: 0.8317, coref_recall: 0.7199, coref_f1: 0.7717, mention_recall: 0.9810, batch_loss: 3.3660, loss: 27.2830 ||:  29%|##9       | 833/2851 [01:50<13:05,  2.57it/s]
2022-07-08 11:30:26,221 - INFO - tqdm - coref_precision: 0.8305, coref_recall: 0.7157, coref_f1: 0.7687, mention_recall: 0.9792, batch_loss: 14.4528, loss: 26.9976 ||:  32%|###2      | 915/2851 [02:00<03:43,  8.67it/s]
2022-07-08 11:30:36,360 - INFO - tqdm - coref_precision: 0.8298, coref_recall: 0.7155, coref_f1: 0.7683, mention_recall: 0.9789, batch_loss: 23.6229, loss: 26.9149 ||:  35%|###4      | 996/2851 [02:11<04:07,  7.49it/s]
2022-07-08 11:30:46,424 - INFO - tqdm - coref_precision: 0.8303, coref_recall: 0.7160, coref_f1: 0.7688, mention_recall: 0.9789, batch_loss: 99.7042, loss: 26.7496 ||:  38%|###7      | 1080/2851 [02:21<04:12,  7.02it/s]
2022-07-08 11:30:56,608 - INFO - tqdm - coref_precision: 0.8286, coref_recall: 0.7140, coref_f1: 0.7669, mention_recall: 0.9788, batch_loss: 55.6358, loss: 27.3162 ||:  41%|####      | 1157/2851 [02:31<03:37,  7.81it/s]
2022-07-08 11:31:06,621 - INFO - tqdm - coref_precision: 0.8291, coref_recall: 0.7141, coref_f1: 0.7672, mention_recall: 0.9791, batch_loss: 38.5025, loss: 27.4666 ||:  43%|####3     | 1236/2851 [02:41<03:10,  8.47it/s]
2022-07-08 11:31:16,688 - INFO - tqdm - coref_precision: 0.8266, coref_recall: 0.7121, coref_f1: 0.7650, mention_recall: 0.9791, batch_loss: 94.2816, loss: 27.8721 ||:  46%|####5     | 1308/2851 [02:51<03:30,  7.33it/s]
2022-07-08 11:31:26,886 - INFO - tqdm - coref_precision: 0.8270, coref_recall: 0.7125, coref_f1: 0.7654, mention_recall: 0.9795, batch_loss: 27.4306, loss: 28.1574 ||:  48%|####8     | 1376/2851 [03:01<02:55,  8.39it/s]
2022-07-08 11:31:37,222 - INFO - tqdm - coref_precision: 0.8278, coref_recall: 0.7149, coref_f1: 0.7671, mention_recall: 0.9799, batch_loss: 85.2460, loss: 27.8449 ||:  51%|#####1    | 1459/2851 [03:11<03:13,  7.19it/s]
2022-07-08 11:31:47,277 - INFO - tqdm - coref_precision: 0.8266, coref_recall: 0.7151, coref_f1: 0.7667, mention_recall: 0.9799, batch_loss: 139.3119, loss: 28.1835 ||:  54%|#####3    | 1526/2851 [03:21<03:35,  6.14it/s]
2022-07-08 11:31:57,385 - INFO - tqdm - coref_precision: 0.8267, coref_recall: 0.7160, coref_f1: 0.7672, mention_recall: 0.9801, batch_loss: 17.0196, loss: 28.1376 ||:  56%|#####6    | 1605/2851 [03:32<02:38,  7.88it/s]
2022-07-08 11:32:07,519 - INFO - tqdm - coref_precision: 0.8261, coref_recall: 0.7156, coref_f1: 0.7667, mention_recall: 0.9801, batch_loss: 60.3528, loss: 28.1189 ||:  59%|#####9    | 1687/2851 [03:42<02:37,  7.41it/s]
2022-07-08 11:32:17,555 - INFO - tqdm - coref_precision: 0.8272, coref_recall: 0.7166, coref_f1: 0.7678, mention_recall: 0.9803, batch_loss: 11.1002, loss: 27.9964 ||:  62%|######1   | 1761/2851 [03:52<02:20,  7.73it/s]
2022-07-08 11:32:27,982 - INFO - tqdm - coref_precision: 0.8262, coref_recall: 0.7143, coref_f1: 0.7660, mention_recall: 0.9799, batch_loss: 278.2693, loss: 28.3165 ||:  64%|######4   | 1836/2851 [04:02<04:52,  3.47it/s]
2022-07-08 11:32:38,080 - INFO - tqdm - coref_precision: 0.8264, coref_recall: 0.7151, coref_f1: 0.7666, mention_recall: 0.9800, batch_loss: 44.8001, loss: 28.2183 ||:  67%|######7   | 1921/2851 [04:12<01:43,  8.96it/s]
2022-07-08 11:32:48,173 - INFO - tqdm - coref_precision: 0.8259, coref_recall: 0.7136, coref_f1: 0.7655, mention_recall: 0.9796, batch_loss: 99.0387, loss: 28.3592 ||:  70%|#######   | 1996/2851 [04:22<01:54,  7.49it/s]
2022-07-08 11:32:58,188 - INFO - tqdm - coref_precision: 0.8261, coref_recall: 0.7117, coref_f1: 0.7645, mention_recall: 0.9793, batch_loss: 21.1375, loss: 28.7156 ||:  72%|#######2  | 2060/2851 [04:32<01:45,  7.50it/s]
2022-07-08 11:33:08,254 - INFO - tqdm - coref_precision: 0.8259, coref_recall: 0.7105, coref_f1: 0.7637, mention_recall: 0.9793, batch_loss: 6.9384, loss: 29.0344 ||:  75%|#######4  | 2127/2851 [04:42<01:59,  6.06it/s]
2022-07-08 11:33:18,353 - INFO - tqdm - coref_precision: 0.8259, coref_recall: 0.7093, coref_f1: 0.7630, mention_recall: 0.9790, batch_loss: 16.9151, loss: 29.1998 ||:  77%|#######7  | 2199/2851 [04:53<01:04, 10.03it/s]
2022-07-08 11:33:28,521 - INFO - tqdm - coref_precision: 0.8251, coref_recall: 0.7076, coref_f1: 0.7617, mention_recall: 0.9786, batch_loss: 41.9815, loss: 29.4347 ||:  80%|#######9  | 2270/2851 [05:03<01:54,  5.09it/s]
2022-07-08 11:33:38,657 - INFO - tqdm - coref_precision: 0.8256, coref_recall: 0.7089, coref_f1: 0.7626, mention_recall: 0.9786, batch_loss: 9.3741, loss: 29.3202 ||:  83%|########2 | 2353/2851 [05:13<00:54,  9.21it/s]
2022-07-08 11:33:48,818 - INFO - tqdm - coref_precision: 0.8259, coref_recall: 0.7088, coref_f1: 0.7627, mention_recall: 0.9783, batch_loss: 10.1856, loss: 29.2296 ||:  85%|########5 | 2434/2851 [05:23<00:43,  9.62it/s]
2022-07-08 11:33:58,848 - INFO - tqdm - coref_precision: 0.8250, coref_recall: 0.7072, coref_f1: 0.7615, mention_recall: 0.9780, batch_loss: 284.7780, loss: 29.5793 ||:  88%|########7 | 2506/2851 [05:33<01:09,  4.93it/s]
2022-07-08 11:34:08,960 - INFO - tqdm - coref_precision: 0.8242, coref_recall: 0.7055, coref_f1: 0.7601, mention_recall: 0.9775, batch_loss: 79.6790, loss: 29.9132 ||:  90%|######### | 2575/2851 [05:43<00:45,  6.10it/s]
2022-07-08 11:34:18,969 - INFO - tqdm - coref_precision: 0.8236, coref_recall: 0.7055, coref_f1: 0.7599, mention_recall: 0.9776, batch_loss: 21.5113, loss: 30.1379 ||:  93%|#########2| 2638/2851 [05:53<00:26,  7.90it/s]
2022-07-08 11:34:29,062 - INFO - tqdm - coref_precision: 0.8239, coref_recall: 0.7064, coref_f1: 0.7605, mention_recall: 0.9777, batch_loss: 0.9558, loss: 30.0104 ||:  95%|#########5| 2717/2851 [06:03<00:16,  7.95it/s]
2022-07-08 11:34:39,093 - INFO - tqdm - coref_precision: 0.8240, coref_recall: 0.7065, coref_f1: 0.7607, mention_recall: 0.9776, batch_loss: 55.4033, loss: 29.9205 ||:  98%|#########8| 2797/2851 [06:13<00:08,  6.19it/s]
2022-07-08 11:34:43,779 - INFO - tqdm - coref_precision: 0.8244, coref_recall: 0.7069, coref_f1: 0.7611, mention_recall: 0.9776, batch_loss: 64.2230, loss: 29.7751 ||: 100%|#########9| 2837/2851 [06:18<00:01,  7.55it/s]
2022-07-08 11:34:43,941 - INFO - tqdm - coref_precision: 0.8244, coref_recall: 0.7070, coref_f1: 0.7611, mention_recall: 0.9776, batch_loss: 59.0752, loss: 29.7854 ||: 100%|#########9| 2838/2851 [06:18<00:01,  7.14it/s]
2022-07-08 11:34:44,154 - INFO - tqdm - coref_precision: 0.8244, coref_recall: 0.7069, coref_f1: 0.7611, mention_recall: 0.9776, batch_loss: 13.5897, loss: 29.7850 ||: 100%|#########9| 2840/2851 [06:18<00:01,  7.95it/s]
2022-07-08 11:34:44,382 - INFO - tqdm - coref_precision: 0.8244, coref_recall: 0.7070, coref_f1: 0.7611, mention_recall: 0.9776, batch_loss: 45.4672, loss: 29.7826 ||: 100%|#########9| 2842/2851 [06:19<00:01,  8.24it/s]
2022-07-08 11:34:44,542 - INFO - tqdm - coref_precision: 0.8244, coref_recall: 0.7070, coref_f1: 0.7611, mention_recall: 0.9776, batch_loss: 35.4396, loss: 29.7846 ||: 100%|#########9| 2843/2851 [06:19<00:01,  7.72it/s]
2022-07-08 11:34:44,835 - INFO - tqdm - coref_precision: 0.8244, coref_recall: 0.7070, coref_f1: 0.7611, mention_recall: 0.9776, batch_loss: 79.3849, loss: 29.8020 ||: 100%|#########9| 2844/2851 [06:19<00:01,  5.97it/s]
2022-07-08 11:34:44,944 - INFO - tqdm - coref_precision: 0.8244, coref_recall: 0.7071, coref_f1: 0.7612, mention_recall: 0.9776, batch_loss: 10.3474, loss: 29.7952 ||: 100%|#########9| 2845/2851 [06:19<00:00,  6.53it/s]
2022-07-08 11:34:45,089 - INFO - tqdm - coref_precision: 0.8245, coref_recall: 0.7072, coref_f1: 0.7612, mention_recall: 0.9776, batch_loss: 18.0059, loss: 29.7910 ||: 100%|#########9| 2846/2851 [06:19<00:00,  6.63it/s]
2022-07-08 11:34:45,279 - INFO - tqdm - coref_precision: 0.8245, coref_recall: 0.7071, coref_f1: 0.7612, mention_recall: 0.9776, batch_loss: 23.6136, loss: 29.7837 ||: 100%|#########9| 2848/2851 [06:19<00:00,  7.88it/s]
2022-07-08 11:34:45,409 - INFO - tqdm - coref_precision: 0.8245, coref_recall: 0.7071, coref_f1: 0.7612, mention_recall: 0.9776, batch_loss: 30.4442, loss: 29.7840 ||: 100%|#########9| 2849/2851 [06:20<00:00,  7.83it/s]
2022-07-08 11:34:45,549 - INFO - tqdm - coref_precision: 0.8245, coref_recall: 0.7071, coref_f1: 0.7612, mention_recall: 0.9776, batch_loss: 40.2772, loss: 29.7876 ||: 100%|#########9| 2850/2851 [06:20<00:00,  7.64it/s]
2022-07-08 11:34:45,686 - INFO - tqdm - coref_precision: 0.8246, coref_recall: 0.7071, coref_f1: 0.7612, mention_recall: 0.9776, batch_loss: 11.2484, loss: 29.7811 ||: 100%|##########| 2851/2851 [06:20<00:00,  7.56it/s]
2022-07-08 11:34:45,687 - INFO - tqdm - coref_precision: 0.8246, coref_recall: 0.7071, coref_f1: 0.7612, mention_recall: 0.9776, batch_loss: 11.2484, loss: 29.7811 ||: 100%|##########| 2851/2851 [06:20<00:00,  7.50it/s]
2022-07-08 11:34:46,558 - INFO - allennlp.training.trainer - Validating
2022-07-08 11:34:46,559 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 11:34:56,654 - INFO - tqdm - coref_precision: 0.8008, coref_recall: 0.6906, coref_f1: 0.7416, mention_recall: 0.9649, batch_loss: 25.8156, loss: 31.3685 ||:  39%|###9      | 155/397 [00:10<00:12, 19.96it/s]
2022-07-08 11:35:06,685 - INFO - tqdm - coref_precision: 0.8027, coref_recall: 0.6945, coref_f1: 0.7446, mention_recall: 0.9672, batch_loss: 15.3370, loss: 31.4689 ||:  90%|######### | 358/397 [00:20<00:01, 22.57it/s]
2022-07-08 11:35:08,256 - INFO - tqdm - coref_precision: 0.8062, coref_recall: 0.6991, coref_f1: 0.7488, mention_recall: 0.9678, batch_loss: 11.2156, loss: 30.7955 ||: 100%|##########| 397/397 [00:21<00:00, 27.05it/s]
2022-07-08 11:35:08,257 - INFO - tqdm - coref_precision: 0.8062, coref_recall: 0.6991, coref_f1: 0.7488, mention_recall: 0.9678, batch_loss: 11.2156, loss: 30.7955 ||: 100%|##########| 397/397 [00:21<00:00, 18.30it/s]
2022-07-08 11:35:09,979 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.761  |     0.749
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.825  |     0.806
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.707  |     0.699
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.492  |       N/A
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger - loss               |    29.781  |    30.796
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.978  |     0.968
2022-07-08 11:35:11,347 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 11:35:11,347 - INFO - allennlp.training.trainer - Epoch duration: 0:06:46.019423
2022-07-08 11:35:11,347 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:36:18
2022-07-08 11:35:11,347 - INFO - allennlp.training.trainer - Epoch 3/149
2022-07-08 11:35:11,347 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 11:35:11,348 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 11:35:11,349 - INFO - allennlp.training.trainer - Training
2022-07-08 11:35:11,349 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 11:35:21,408 - INFO - tqdm - coref_precision: 0.8603, coref_recall: 0.7209, coref_f1: 0.7842, mention_recall: 0.9766, batch_loss: 21.3463, loss: 26.3518 ||:   3%|2         | 74/2851 [00:10<06:53,  6.71it/s]
2022-07-08 11:35:31,562 - INFO - tqdm - coref_precision: 0.8671, coref_recall: 0.7455, coref_f1: 0.8015, mention_recall: 0.9767, batch_loss: 69.2001, loss: 22.0856 ||:   5%|5         | 155/2851 [00:20<06:03,  7.42it/s]
2022-07-08 11:35:41,684 - INFO - tqdm - coref_precision: 0.8653, coref_recall: 0.7571, coref_f1: 0.8073, mention_recall: 0.9770, batch_loss: 4.9128, loss: 21.0592 ||:   8%|8         | 239/2851 [00:30<05:49,  7.48it/s]
2022-07-08 11:35:51,728 - INFO - tqdm - coref_precision: 0.8617, coref_recall: 0.7587, coref_f1: 0.8067, mention_recall: 0.9786, batch_loss: 24.3618, loss: 21.5298 ||:  11%|#         | 312/2851 [00:40<05:18,  7.98it/s]
2022-07-08 11:36:01,797 - INFO - tqdm - coref_precision: 0.8598, coref_recall: 0.7580, coref_f1: 0.8055, mention_recall: 0.9787, batch_loss: 10.8996, loss: 21.5519 ||:  14%|#3        | 393/2851 [00:50<05:40,  7.22it/s]
2022-07-08 11:36:11,880 - INFO - tqdm - coref_precision: 0.8597, coref_recall: 0.7557, coref_f1: 0.8042, mention_recall: 0.9793, batch_loss: 52.1849, loss: 22.2844 ||:  16%|#6        | 469/2851 [01:00<04:35,  8.65it/s]
2022-07-08 11:36:21,886 - INFO - tqdm - coref_precision: 0.8584, coref_recall: 0.7552, coref_f1: 0.8034, mention_recall: 0.9790, batch_loss: 41.1378, loss: 22.3064 ||:  19%|#9        | 550/2851 [01:10<05:57,  6.43it/s]
2022-07-08 11:36:32,006 - INFO - tqdm - coref_precision: 0.8544, coref_recall: 0.7504, coref_f1: 0.7989, mention_recall: 0.9789, batch_loss: 11.7711, loss: 23.5639 ||:  22%|##1       | 624/2851 [01:20<03:55,  9.46it/s]
2022-07-08 11:36:42,496 - INFO - tqdm - coref_precision: 0.8517, coref_recall: 0.7489, coref_f1: 0.7968, mention_recall: 0.9795, batch_loss: 161.5757, loss: 24.1700 ||:  25%|##4       | 700/2851 [01:31<06:56,  5.16it/s]
2022-07-08 11:36:52,707 - INFO - tqdm - coref_precision: 0.8496, coref_recall: 0.7470, coref_f1: 0.7948, mention_recall: 0.9791, batch_loss: 51.7975, loss: 24.4838 ||:  27%|##7       | 774/2851 [01:41<04:16,  8.09it/s]
2022-07-08 11:37:02,769 - INFO - tqdm - coref_precision: 0.8502, coref_recall: 0.7472, coref_f1: 0.7952, mention_recall: 0.9791, batch_loss: 25.8111, loss: 24.2650 ||:  30%|##9       | 855/2851 [01:51<03:40,  9.04it/s]
2022-07-08 11:37:12,918 - INFO - tqdm - coref_precision: 0.8494, coref_recall: 0.7470, coref_f1: 0.7948, mention_recall: 0.9790, batch_loss: 37.7874, loss: 24.3755 ||:  33%|###2      | 931/2851 [02:01<03:47,  8.44it/s]
2022-07-08 11:37:23,063 - INFO - tqdm - coref_precision: 0.8485, coref_recall: 0.7468, coref_f1: 0.7942, mention_recall: 0.9792, batch_loss: 15.2542, loss: 24.2909 ||:  35%|###5      | 1004/2851 [02:11<03:20,  9.22it/s]
2022-07-08 11:37:33,199 - INFO - tqdm - coref_precision: 0.8493, coref_recall: 0.7480, coref_f1: 0.7953, mention_recall: 0.9791, batch_loss: 26.9646, loss: 24.0755 ||:  38%|###8      | 1086/2851 [02:21<03:30,  8.40it/s]
2022-07-08 11:37:43,273 - INFO - tqdm - coref_precision: 0.8492, coref_recall: 0.7476, coref_f1: 0.7950, mention_recall: 0.9791, batch_loss: 27.5563, loss: 24.2065 ||:  41%|####      | 1162/2851 [02:31<03:55,  7.16it/s]
2022-07-08 11:37:53,357 - INFO - tqdm - coref_precision: 0.8488, coref_recall: 0.7476, coref_f1: 0.7948, mention_recall: 0.9793, batch_loss: 1.8524, loss: 23.9742 ||:  44%|####3     | 1248/2851 [02:42<02:53,  9.25it/s]
2022-07-08 11:38:03,524 - INFO - tqdm - coref_precision: 0.8474, coref_recall: 0.7450, coref_f1: 0.7927, mention_recall: 0.9792, batch_loss: 30.8934, loss: 24.2577 ||:  46%|####6     | 1324/2851 [02:52<03:09,  8.05it/s]
2022-07-08 11:38:13,604 - INFO - tqdm - coref_precision: 0.8473, coref_recall: 0.7464, coref_f1: 0.7935, mention_recall: 0.9795, batch_loss: 1.4536, loss: 24.2237 ||:  49%|####9     | 1399/2851 [03:02<03:11,  7.57it/s]
2022-07-08 11:38:23,636 - INFO - tqdm - coref_precision: 0.8454, coref_recall: 0.7437, coref_f1: 0.7912, mention_recall: 0.9787, batch_loss: 15.2695, loss: 24.6405 ||:  52%|#####1    | 1470/2851 [03:12<02:44,  8.41it/s]
2022-07-08 11:38:33,750 - INFO - tqdm - coref_precision: 0.8451, coref_recall: 0.7434, coref_f1: 0.7909, mention_recall: 0.9787, batch_loss: 26.2711, loss: 24.6390 ||:  54%|#####4    | 1548/2851 [03:22<03:01,  7.17it/s]
2022-07-08 11:38:43,815 - INFO - tqdm - coref_precision: 0.8452, coref_recall: 0.7425, coref_f1: 0.7904, mention_recall: 0.9786, batch_loss: 23.5708, loss: 24.9195 ||:  57%|#####6    | 1619/2851 [03:32<03:14,  6.33it/s]
2022-07-08 11:38:53,856 - INFO - tqdm - coref_precision: 0.8444, coref_recall: 0.7413, coref_f1: 0.7894, mention_recall: 0.9786, batch_loss: 24.9847, loss: 25.4811 ||:  59%|#####9    | 1689/2851 [03:42<02:36,  7.40it/s]
2022-07-08 11:39:03,947 - INFO - tqdm - coref_precision: 0.8450, coref_recall: 0.7421, coref_f1: 0.7901, mention_recall: 0.9789, batch_loss: 62.7251, loss: 25.2918 ||:  62%|######2   | 1771/2851 [03:52<02:19,  7.73it/s]
2022-07-08 11:39:13,983 - INFO - tqdm - coref_precision: 0.8443, coref_recall: 0.7408, coref_f1: 0.7890, mention_recall: 0.9789, batch_loss: 20.5979, loss: 25.5196 ||:  65%|######4   | 1843/2851 [04:02<02:10,  7.73it/s]
2022-07-08 11:39:24,103 - INFO - tqdm - coref_precision: 0.8449, coref_recall: 0.7429, coref_f1: 0.7905, mention_recall: 0.9792, batch_loss: 56.5674, loss: 25.2774 ||:  67%|######7   | 1924/2851 [04:12<02:28,  6.24it/s]
2022-07-08 11:39:34,184 - INFO - tqdm - coref_precision: 0.8450, coref_recall: 0.7423, coref_f1: 0.7902, mention_recall: 0.9791, batch_loss: 48.3291, loss: 25.1954 ||:  70%|#######   | 2005/2851 [04:22<01:43,  8.16it/s]
2022-07-08 11:39:44,542 - INFO - tqdm - coref_precision: 0.8449, coref_recall: 0.7416, coref_f1: 0.7898, mention_recall: 0.9789, batch_loss: 202.4464, loss: 25.1396 ||:  72%|#######2  | 2066/2851 [04:33<02:28,  5.27it/s]
2022-07-08 11:39:54,732 - INFO - tqdm - coref_precision: 0.8450, coref_recall: 0.7412, coref_f1: 0.7895, mention_recall: 0.9790, batch_loss: 198.4191, loss: 25.0977 ||:  75%|#######5  | 2144/2851 [04:43<02:04,  5.67it/s]
2022-07-08 11:40:04,760 - INFO - tqdm - coref_precision: 0.8455, coref_recall: 0.7427, coref_f1: 0.7906, mention_recall: 0.9789, batch_loss: 11.6296, loss: 24.9186 ||:  78%|#######8  | 2226/2851 [04:53<01:43,  6.05it/s]
2022-07-08 11:40:14,935 - INFO - tqdm - coref_precision: 0.8462, coref_recall: 0.7437, coref_f1: 0.7915, mention_recall: 0.9792, batch_loss: 45.1180, loss: 24.8541 ||:  81%|########  | 2303/2851 [05:03<01:10,  7.76it/s]
2022-07-08 11:40:25,120 - INFO - tqdm - coref_precision: 0.8457, coref_recall: 0.7424, coref_f1: 0.7905, mention_recall: 0.9792, batch_loss: 12.4429, loss: 24.8797 ||:  83%|########3 | 2377/2851 [05:13<00:55,  8.53it/s]
2022-07-08 11:40:36,871 - INFO - tqdm - coref_precision: 0.8439, coref_recall: 0.7416, coref_f1: 0.7893, mention_recall: 0.9791, batch_loss: 833.1605, loss: 25.2384 ||:  86%|########5 | 2451/2851 [05:25<03:59,  1.67it/s]
2022-07-08 11:40:46,903 - INFO - tqdm - coref_precision: 0.8446, coref_recall: 0.7409, coref_f1: 0.7892, mention_recall: 0.9789, batch_loss: 27.2669, loss: 25.2836 ||:  88%|########8 | 2523/2851 [05:35<00:53,  6.17it/s]
2022-07-08 11:40:56,920 - INFO - tqdm - coref_precision: 0.8439, coref_recall: 0.7399, coref_f1: 0.7883, mention_recall: 0.9788, batch_loss: 8.8587, loss: 25.4650 ||:  91%|######### | 2592/2851 [05:45<00:35,  7.39it/s]
2022-07-08 11:41:07,006 - INFO - tqdm - coref_precision: 0.8439, coref_recall: 0.7394, coref_f1: 0.7880, mention_recall: 0.9785, batch_loss: 28.0594, loss: 25.5840 ||:  93%|#########3| 2659/2851 [05:55<00:22,  8.57it/s]
2022-07-08 11:41:17,048 - INFO - tqdm - coref_precision: 0.8437, coref_recall: 0.7399, coref_f1: 0.7882, mention_recall: 0.9784, batch_loss: 3.8206, loss: 25.5808 ||:  96%|#########5| 2735/2851 [06:05<00:14,  7.98it/s]
2022-07-08 11:41:27,188 - INFO - tqdm - coref_precision: 0.8435, coref_recall: 0.7399, coref_f1: 0.7881, mention_recall: 0.9781, batch_loss: 6.0471, loss: 25.6757 ||:  98%|#########8| 2807/2851 [06:15<00:06,  6.57it/s]
2022-07-08 11:41:30,750 - INFO - tqdm - coref_precision: 0.8437, coref_recall: 0.7400, coref_f1: 0.7883, mention_recall: 0.9782, batch_loss: 3.7795, loss: 25.6146 ||: 100%|#########9| 2837/2851 [06:19<00:01,  8.86it/s]
2022-07-08 11:41:30,929 - INFO - tqdm - coref_precision: 0.8438, coref_recall: 0.7400, coref_f1: 0.7884, mention_recall: 0.9782, batch_loss: 5.1570, loss: 25.6048 ||: 100%|#########9| 2839/2851 [06:19<00:01,  9.68it/s]
2022-07-08 11:41:31,168 - INFO - tqdm - coref_precision: 0.8438, coref_recall: 0.7401, coref_f1: 0.7884, mention_recall: 0.9782, batch_loss: 5.3816, loss: 25.5893 ||: 100%|#########9| 2841/2851 [06:19<00:01,  9.15it/s]
2022-07-08 11:41:31,364 - INFO - tqdm - coref_precision: 0.8439, coref_recall: 0.7402, coref_f1: 0.7885, mention_recall: 0.9782, batch_loss: 1.7994, loss: 25.5720 ||: 100%|#########9| 2843/2851 [06:20<00:00,  9.48it/s]
2022-07-08 11:41:31,680 - INFO - tqdm - coref_precision: 0.8437, coref_recall: 0.7398, coref_f1: 0.7882, mention_recall: 0.9782, batch_loss: 178.4339, loss: 25.6258 ||: 100%|#########9| 2844/2851 [06:20<00:01,  6.81it/s]
2022-07-08 11:41:31,793 - INFO - tqdm - coref_precision: 0.8437, coref_recall: 0.7398, coref_f1: 0.7882, mention_recall: 0.9782, batch_loss: 13.3408, loss: 25.6214 ||: 100%|#########9| 2845/2851 [06:20<00:00,  7.17it/s]
2022-07-08 11:41:31,907 - INFO - tqdm - coref_precision: 0.8437, coref_recall: 0.7398, coref_f1: 0.7882, mention_recall: 0.9782, batch_loss: 13.2531, loss: 25.6171 ||: 100%|#########9| 2846/2851 [06:20<00:00,  7.49it/s]
2022-07-08 11:41:32,120 - INFO - tqdm - coref_precision: 0.8438, coref_recall: 0.7399, coref_f1: 0.7883, mention_recall: 0.9782, batch_loss: 21.3783, loss: 25.6071 ||: 100%|#########9| 2848/2851 [06:20<00:00,  8.16it/s]
2022-07-08 11:41:32,370 - INFO - tqdm - coref_precision: 0.8437, coref_recall: 0.7399, coref_f1: 0.7883, mention_recall: 0.9782, batch_loss: 98.4275, loss: 25.6326 ||: 100%|#########9| 2849/2851 [06:21<00:00,  6.62it/s]
2022-07-08 11:41:32,538 - INFO - tqdm - coref_precision: 0.8438, coref_recall: 0.7399, coref_f1: 0.7883, mention_recall: 0.9782, batch_loss: 47.5648, loss: 25.6403 ||: 100%|#########9| 2850/2851 [06:21<00:00,  6.44it/s]
2022-07-08 11:41:32,713 - INFO - tqdm - coref_precision: 0.8438, coref_recall: 0.7399, coref_f1: 0.7883, mention_recall: 0.9782, batch_loss: 57.3925, loss: 25.6514 ||: 100%|##########| 2851/2851 [06:21<00:00,  6.24it/s]
2022-07-08 11:41:32,714 - INFO - tqdm - coref_precision: 0.8438, coref_recall: 0.7399, coref_f1: 0.7883, mention_recall: 0.9782, batch_loss: 57.3925, loss: 25.6514 ||: 100%|##########| 2851/2851 [06:21<00:00,  7.48it/s]
2022-07-08 11:41:33,673 - INFO - allennlp.training.trainer - Validating
2022-07-08 11:41:33,674 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 11:41:43,716 - INFO - tqdm - coref_precision: 0.7955, coref_recall: 0.7382, coref_f1: 0.7657, mention_recall: 0.9756, batch_loss: 30.7657, loss: 34.9632 ||:  52%|#####2    | 208/397 [00:10<00:06, 27.17it/s]
2022-07-08 11:41:53,228 - INFO - tqdm - coref_precision: 0.7875, coref_recall: 0.7147, coref_f1: 0.7493, mention_recall: 0.9722, batch_loss: 32.0841, loss: 36.5335 ||: 100%|##########| 397/397 [00:19<00:00, 20.30it/s]
2022-07-08 11:41:54,948 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 11:41:56,336 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 11:41:56,337 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.788  |     0.749
2022-07-08 11:41:56,337 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.844  |     0.787
2022-07-08 11:41:56,337 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.740  |     0.715
2022-07-08 11:41:56,337 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 11:41:56,337 - INFO - allennlp.training.callbacks.console_logger - loss               |    25.651  |    36.534
2022-07-08 11:41:56,337 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.978  |     0.972
2022-07-08 11:41:56,337 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 11:41:56,337 - INFO - allennlp.training.trainer - Epoch duration: 0:06:44.989519
2022-07-08 11:41:56,337 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:28:30
2022-07-08 11:41:56,337 - INFO - allennlp.training.trainer - Epoch 4/149
2022-07-08 11:41:56,337 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 11:41:56,337 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 11:41:56,338 - INFO - allennlp.training.trainer - Training
2022-07-08 11:41:56,339 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 11:42:06,457 - INFO - tqdm - coref_precision: 0.8817, coref_recall: 0.7745, coref_f1: 0.8244, mention_recall: 0.9828, batch_loss: 1.9276, loss: 19.1376 ||:   3%|2         | 78/2851 [00:10<06:42,  6.89it/s]
2022-07-08 11:42:16,540 - INFO - tqdm - coref_precision: 0.8703, coref_recall: 0.7774, coref_f1: 0.8211, mention_recall: 0.9799, batch_loss: 53.7265, loss: 20.5729 ||:   5%|5         | 154/2851 [00:20<05:56,  7.56it/s]
2022-07-08 11:42:26,566 - INFO - tqdm - coref_precision: 0.8475, coref_recall: 0.7510, coref_f1: 0.7963, mention_recall: 0.9790, batch_loss: 63.7421, loss: 25.8757 ||:   8%|7         | 214/2851 [00:30<06:14,  7.03it/s]
2022-07-08 11:42:36,659 - INFO - tqdm - coref_precision: 0.8434, coref_recall: 0.7349, coref_f1: 0.7853, mention_recall: 0.9761, batch_loss: 10.4182, loss: 27.8449 ||:  10%|9         | 282/2851 [00:40<05:26,  7.87it/s]
2022-07-08 11:42:46,733 - INFO - tqdm - coref_precision: 0.8411, coref_recall: 0.7307, coref_f1: 0.7819, mention_recall: 0.9761, batch_loss: 1.3874, loss: 28.6812 ||:  12%|#2        | 349/2851 [00:50<07:36,  5.48it/s]
2022-07-08 11:42:56,785 - INFO - tqdm - coref_precision: 0.8410, coref_recall: 0.7270, coref_f1: 0.7797, mention_recall: 0.9759, batch_loss: 1.8620, loss: 29.2747 ||:  15%|#4        | 423/2851 [01:00<03:55, 10.29it/s]
2022-07-08 11:43:06,853 - INFO - tqdm - coref_precision: 0.8444, coref_recall: 0.7286, coref_f1: 0.7821, mention_recall: 0.9768, batch_loss: 16.1034, loss: 28.2336 ||:  18%|#7        | 499/2851 [01:10<05:10,  7.58it/s]
2022-07-08 11:43:16,856 - INFO - tqdm - coref_precision: 0.8487, coref_recall: 0.7386, coref_f1: 0.7897, mention_recall: 0.9779, batch_loss: 0.4163, loss: 26.4759 ||:  20%|##        | 582/2851 [01:20<04:16,  8.85it/s]
2022-07-08 11:43:26,968 - INFO - tqdm - coref_precision: 0.8510, coref_recall: 0.7436, coref_f1: 0.7936, mention_recall: 0.9782, batch_loss: 53.3564, loss: 25.9728 ||:  23%|##3       | 660/2851 [01:30<05:05,  7.17it/s]
2022-07-08 11:43:37,020 - INFO - tqdm - coref_precision: 0.8523, coref_recall: 0.7448, coref_f1: 0.7948, mention_recall: 0.9783, batch_loss: 4.6817, loss: 25.7676 ||:  26%|##5       | 730/2851 [01:40<05:39,  6.24it/s]
2022-07-08 11:43:47,195 - INFO - tqdm - coref_precision: 0.8546, coref_recall: 0.7493, coref_f1: 0.7983, mention_recall: 0.9786, batch_loss: 17.7737, loss: 24.6217 ||:  28%|##8       | 803/2851 [01:50<03:16, 10.42it/s]
2022-07-08 11:43:57,409 - INFO - tqdm - coref_precision: 0.8555, coref_recall: 0.7506, coref_f1: 0.7995, mention_recall: 0.9782, batch_loss: 62.1159, loss: 24.3758 ||:  31%|###       | 881/2851 [02:01<05:22,  6.11it/s]
2022-07-08 11:44:07,492 - INFO - tqdm - coref_precision: 0.8557, coref_recall: 0.7532, coref_f1: 0.8010, mention_recall: 0.9788, batch_loss: 6.7704, loss: 24.0535 ||:  34%|###3      | 963/2851 [02:11<03:42,  8.49it/s]
2022-07-08 11:44:17,753 - INFO - tqdm - coref_precision: 0.8553, coref_recall: 0.7545, coref_f1: 0.8016, mention_recall: 0.9785, batch_loss: 205.5602, loss: 23.8193 ||:  37%|###6      | 1042/2851 [02:21<05:14,  5.75it/s]
2022-07-08 11:44:27,813 - INFO - tqdm - coref_precision: 0.8577, coref_recall: 0.7566, coref_f1: 0.8038, mention_recall: 0.9788, batch_loss: 56.3863, loss: 23.3574 ||:  39%|###9      | 1122/2851 [02:31<03:56,  7.31it/s]
2022-07-08 11:44:37,917 - INFO - tqdm - coref_precision: 0.8573, coref_recall: 0.7549, coref_f1: 0.8027, mention_recall: 0.9790, batch_loss: 59.6040, loss: 23.6492 ||:  42%|####1     | 1196/2851 [02:41<04:24,  6.25it/s]
2022-07-08 11:44:47,935 - INFO - tqdm - coref_precision: 0.8582, coref_recall: 0.7584, coref_f1: 0.8050, mention_recall: 0.9796, batch_loss: 7.2600, loss: 23.1746 ||:  45%|####5     | 1283/2851 [02:51<03:00,  8.70it/s]
2022-07-08 11:44:58,098 - INFO - tqdm - coref_precision: 0.8557, coref_recall: 0.7581, coref_f1: 0.8038, mention_recall: 0.9796, batch_loss: 82.7667, loss: 23.4580 ||:  47%|####7     | 1354/2851 [03:01<02:52,  8.66it/s]
2022-07-08 11:45:08,098 - INFO - tqdm - coref_precision: 0.8565, coref_recall: 0.7587, coref_f1: 0.8045, mention_recall: 0.9801, batch_loss: 76.6576, loss: 23.2912 ||:  50%|#####     | 1430/2851 [03:11<03:40,  6.44it/s]
2022-07-08 11:45:18,159 - INFO - tqdm - coref_precision: 0.8579, coref_recall: 0.7608, coref_f1: 0.8063, mention_recall: 0.9804, batch_loss: 11.9600, loss: 23.0931 ||:  53%|#####2    | 1506/2851 [03:21<03:21,  6.67it/s]
2022-07-08 11:45:28,190 - INFO - tqdm - coref_precision: 0.8576, coref_recall: 0.7609, coref_f1: 0.8062, mention_recall: 0.9805, batch_loss: 29.2761, loss: 23.1612 ||:  55%|#####5    | 1579/2851 [03:31<03:19,  6.39it/s]
2022-07-08 11:45:38,324 - INFO - tqdm - coref_precision: 0.8584, coref_recall: 0.7615, coref_f1: 0.8068, mention_recall: 0.9804, batch_loss: 108.3255, loss: 22.9257 ||:  58%|#####8    | 1660/2851 [03:41<03:43,  5.34it/s]
2022-07-08 11:45:48,354 - INFO - tqdm - coref_precision: 0.8591, coref_recall: 0.7622, coref_f1: 0.8076, mention_recall: 0.9806, batch_loss: 13.4211, loss: 22.7487 ||:  61%|######    | 1739/2851 [03:52<02:37,  7.05it/s]
2022-07-08 11:45:58,564 - INFO - tqdm - coref_precision: 0.8597, coref_recall: 0.7632, coref_f1: 0.8084, mention_recall: 0.9806, batch_loss: 72.6438, loss: 22.7396 ||:  64%|######3   | 1814/2851 [04:02<02:40,  6.45it/s]
2022-07-08 11:46:08,830 - INFO - tqdm - coref_precision: 0.8590, coref_recall: 0.7610, coref_f1: 0.8069, mention_recall: 0.9805, batch_loss: 81.7495, loss: 23.1809 ||:  66%|######6   | 1883/2851 [04:12<02:12,  7.30it/s]
2022-07-08 11:46:18,920 - INFO - tqdm - coref_precision: 0.8592, coref_recall: 0.7623, coref_f1: 0.8077, mention_recall: 0.9808, batch_loss: 35.6256, loss: 23.0136 ||:  69%|######8   | 1959/2851 [04:22<01:41,  8.80it/s]
2022-07-08 11:46:28,943 - INFO - tqdm - coref_precision: 0.8594, coref_recall: 0.7626, coref_f1: 0.8079, mention_recall: 0.9807, batch_loss: 29.4589, loss: 22.9234 ||:  71%|#######1  | 2035/2851 [04:32<01:46,  7.63it/s]
2022-07-08 11:46:39,443 - INFO - tqdm - coref_precision: 0.8600, coref_recall: 0.7627, coref_f1: 0.8082, mention_recall: 0.9807, batch_loss: 420.2042, loss: 22.9233 ||:  74%|#######4  | 2111/2851 [04:43<03:54,  3.15it/s]
2022-07-08 11:46:49,575 - INFO - tqdm - coref_precision: 0.8602, coref_recall: 0.7630, coref_f1: 0.8085, mention_recall: 0.9807, batch_loss: 0.0039, loss: 22.7524 ||:  77%|#######6  | 2194/2851 [04:53<01:07,  9.67it/s]
2022-07-08 11:46:59,696 - INFO - tqdm - coref_precision: 0.8597, coref_recall: 0.7627, coref_f1: 0.8081, mention_recall: 0.9808, batch_loss: 107.1108, loss: 22.8476 ||:  80%|#######9  | 2270/2851 [05:03<01:49,  5.33it/s]
2022-07-08 11:47:09,891 - INFO - tqdm - coref_precision: 0.8603, coref_recall: 0.7631, coref_f1: 0.8085, mention_recall: 0.9808, batch_loss: 48.4600, loss: 22.8005 ||:  82%|########2 | 2348/2851 [05:13<01:18,  6.39it/s]
2022-07-08 11:47:19,975 - INFO - tqdm - coref_precision: 0.8607, coref_recall: 0.7635, coref_f1: 0.8090, mention_recall: 0.9809, batch_loss: 5.3224, loss: 22.7023 ||:  85%|########4 | 2421/2851 [05:23<00:54,  7.87it/s]
2022-07-08 11:47:30,156 - INFO - tqdm - coref_precision: 0.8605, coref_recall: 0.7638, coref_f1: 0.8091, mention_recall: 0.9809, batch_loss: 46.0964, loss: 22.6988 ||:  87%|########7 | 2493/2851 [05:33<00:46,  7.76it/s]
2022-07-08 11:47:40,256 - INFO - tqdm - coref_precision: 0.8606, coref_recall: 0.7643, coref_f1: 0.8094, mention_recall: 0.9809, batch_loss: 0.9504, loss: 22.6704 ||:  90%|######### | 2570/2851 [05:43<00:44,  6.26it/s]
2022-07-08 11:47:51,164 - INFO - tqdm - coref_precision: 0.8605, coref_recall: 0.7640, coref_f1: 0.8092, mention_recall: 0.9808, batch_loss: 190.0669, loss: 22.6735 ||:  93%|#########2| 2643/2851 [05:54<00:52,  3.95it/s]
2022-07-08 11:48:01,204 - INFO - tqdm - coref_precision: 0.8606, coref_recall: 0.7640, coref_f1: 0.8092, mention_recall: 0.9808, batch_loss: 12.9834, loss: 22.6741 ||:  95%|#########5| 2713/2851 [06:04<00:19,  7.26it/s]
2022-07-08 11:48:11,222 - INFO - tqdm - coref_precision: 0.8606, coref_recall: 0.7642, coref_f1: 0.8093, mention_recall: 0.9808, batch_loss: 95.9621, loss: 22.6921 ||:  98%|#########7| 2784/2851 [06:14<00:09,  7.36it/s]
2022-07-08 11:48:17,919 - INFO - tqdm - coref_precision: 0.8609, coref_recall: 0.7649, coref_f1: 0.8098, mention_recall: 0.9810, batch_loss: 14.6832, loss: 22.6142 ||: 100%|#########9| 2837/2851 [06:21<00:01,  8.44it/s]
2022-07-08 11:48:18,099 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7649, coref_f1: 0.8098, mention_recall: 0.9810, batch_loss: 101.1863, loss: 22.6419 ||: 100%|#########9| 2838/2851 [06:21<00:01,  7.56it/s]
2022-07-08 11:48:18,249 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7648, coref_f1: 0.8098, mention_recall: 0.9810, batch_loss: 0.0028, loss: 22.6262 ||: 100%|#########9| 2840/2851 [06:21<00:01,  9.11it/s]
2022-07-08 11:48:18,363 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7648, coref_f1: 0.8098, mention_recall: 0.9810, batch_loss: 20.9301, loss: 22.6256 ||: 100%|#########9| 2841/2851 [06:22<00:01,  9.03it/s]
2022-07-08 11:48:18,562 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7648, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 46.1141, loss: 22.6338 ||: 100%|#########9| 2842/2851 [06:22<00:01,  7.59it/s]
2022-07-08 11:48:18,666 - INFO - tqdm - coref_precision: 0.8607, coref_recall: 0.7648, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 18.7981, loss: 22.6325 ||: 100%|#########9| 2843/2851 [06:22<00:00,  8.03it/s]
2022-07-08 11:48:18,767 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7648, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 8.1688, loss: 22.6274 ||: 100%|#########9| 2844/2851 [06:22<00:00,  8.44it/s]
2022-07-08 11:48:18,928 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7648, coref_f1: 0.8098, mention_recall: 0.9810, batch_loss: 13.4392, loss: 22.6242 ||: 100%|#########9| 2845/2851 [06:22<00:00,  7.69it/s]
2022-07-08 11:48:19,056 - INFO - tqdm - coref_precision: 0.8607, coref_recall: 0.7647, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 55.4046, loss: 22.6357 ||: 100%|#########9| 2846/2851 [06:22<00:00,  7.72it/s]
2022-07-08 11:48:19,200 - INFO - tqdm - coref_precision: 0.8607, coref_recall: 0.7647, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 0.0991, loss: 22.6198 ||: 100%|#########9| 2848/2851 [06:22<00:00,  9.63it/s]
2022-07-08 11:48:19,319 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7648, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 3.4207, loss: 22.6131 ||: 100%|#########9| 2849/2851 [06:22<00:00,  9.30it/s]
2022-07-08 11:48:19,452 - INFO - tqdm - coref_precision: 0.8608, coref_recall: 0.7648, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 18.2044, loss: 22.6115 ||: 100%|#########9| 2850/2851 [06:23<00:00,  8.76it/s]
2022-07-08 11:48:19,612 - INFO - tqdm - coref_precision: 0.8607, coref_recall: 0.7648, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 23.5295, loss: 22.6119 ||: 100%|##########| 2851/2851 [06:23<00:00,  7.92it/s]
2022-07-08 11:48:19,613 - INFO - tqdm - coref_precision: 0.8607, coref_recall: 0.7648, coref_f1: 0.8097, mention_recall: 0.9810, batch_loss: 23.5295, loss: 22.6119 ||: 100%|##########| 2851/2851 [06:23<00:00,  7.44it/s]
2022-07-08 11:48:20,484 - INFO - allennlp.training.trainer - Validating
2022-07-08 11:48:20,485 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 11:48:32,342 - INFO - tqdm - coref_precision: 0.8004, coref_recall: 0.7117, coref_f1: 0.7534, mention_recall: 0.9692, batch_loss: 372.2585, loss: 34.4092 ||:  48%|####7     | 190/397 [00:11<01:10,  2.95it/s]
2022-07-08 11:48:42,269 - INFO - tqdm - coref_precision: 0.7971, coref_recall: 0.7097, coref_f1: 0.7508, mention_recall: 0.9714, batch_loss: 26.1008, loss: 34.2500 ||: 100%|##########| 397/397 [00:21<00:00, 23.40it/s]
2022-07-08 11:48:42,270 - INFO - tqdm - coref_precision: 0.7971, coref_recall: 0.7097, coref_f1: 0.7508, mention_recall: 0.9714, batch_loss: 26.1008, loss: 34.2500 ||: 100%|##########| 397/397 [00:21<00:00, 18.22it/s]
2022-07-08 11:48:43,993 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 11:48:45,198 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 11:48:45,198 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.810  |     0.751
2022-07-08 11:48:45,199 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.861  |     0.797
2022-07-08 11:48:45,199 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.765  |     0.710
2022-07-08 11:48:45,199 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 11:48:45,199 - INFO - allennlp.training.callbacks.console_logger - loss               |    22.612  |    34.250
2022-07-08 11:48:45,199 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.981  |     0.971
2022-07-08 11:48:45,199 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 11:48:45,199 - INFO - allennlp.training.trainer - Epoch duration: 0:06:48.861685
2022-07-08 11:48:45,199 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:23:00
2022-07-08 11:48:45,199 - INFO - allennlp.training.trainer - Epoch 5/149
2022-07-08 11:48:45,199 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 11:48:45,199 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 11:48:45,200 - INFO - allennlp.training.trainer - Training
2022-07-08 11:48:45,200 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 11:48:55,215 - INFO - tqdm - coref_precision: 0.8865, coref_recall: 0.7908, coref_f1: 0.8355, mention_recall: 0.9864, batch_loss: 14.9319, loss: 17.3562 ||:   3%|2         | 75/2851 [00:10<06:56,  6.66it/s]
2022-07-08 11:49:05,253 - INFO - tqdm - coref_precision: 0.8882, coref_recall: 0.7982, coref_f1: 0.8403, mention_recall: 0.9869, batch_loss: 10.0869, loss: 18.2874 ||:   5%|5         | 146/2851 [00:20<09:00,  5.00it/s]
2022-07-08 11:49:15,253 - INFO - tqdm - coref_precision: 0.8827, coref_recall: 0.7965, coref_f1: 0.8369, mention_recall: 0.9864, batch_loss: 13.2016, loss: 18.8314 ||:   8%|7         | 219/2851 [00:30<06:09,  7.12it/s]
2022-07-08 11:49:25,301 - INFO - tqdm - coref_precision: 0.8815, coref_recall: 0.8021, coref_f1: 0.8395, mention_recall: 0.9871, batch_loss: 3.7503, loss: 18.5739 ||:  10%|#         | 294/2851 [00:40<06:12,  6.86it/s]
2022-07-08 11:49:35,346 - INFO - tqdm - coref_precision: 0.8796, coref_recall: 0.7957, coref_f1: 0.8352, mention_recall: 0.9852, batch_loss: 5.6011, loss: 18.9233 ||:  13%|#2        | 367/2851 [00:50<05:12,  7.96it/s]
2022-07-08 11:49:45,463 - INFO - tqdm - coref_precision: 0.8799, coref_recall: 0.7928, coref_f1: 0.8337, mention_recall: 0.9847, batch_loss: 51.5642, loss: 19.1033 ||:  16%|#5        | 447/2851 [01:00<07:08,  5.61it/s]
2022-07-08 11:49:55,537 - INFO - tqdm - coref_precision: 0.8816, coref_recall: 0.7923, coref_f1: 0.8343, mention_recall: 0.9841, batch_loss: 0.5120, loss: 18.6530 ||:  18%|#8        | 527/2851 [01:10<05:28,  7.08it/s]
2022-07-08 11:50:05,713 - INFO - tqdm - coref_precision: 0.8832, coref_recall: 0.7944, coref_f1: 0.8361, mention_recall: 0.9837, batch_loss: 8.6386, loss: 18.3202 ||:  21%|##1       | 600/2851 [01:20<04:39,  8.05it/s]
2022-07-08 11:50:15,726 - INFO - tqdm - coref_precision: 0.8839, coref_recall: 0.7971, coref_f1: 0.8380, mention_recall: 0.9834, batch_loss: 0.7458, loss: 17.9161 ||:  24%|##3       | 683/2851 [01:30<03:43,  9.71it/s]
2022-07-08 11:50:25,751 - INFO - tqdm - coref_precision: 0.8848, coref_recall: 0.7998, coref_f1: 0.8398, mention_recall: 0.9836, batch_loss: 5.9150, loss: 17.7561 ||:  27%|##6       | 760/2851 [01:40<04:26,  7.85it/s]
2022-07-08 11:50:35,842 - INFO - tqdm - coref_precision: 0.8848, coref_recall: 0.8008, coref_f1: 0.8404, mention_recall: 0.9833, batch_loss: 5.2512, loss: 17.5988 ||:  29%|##9       | 841/2851 [01:50<03:56,  8.51it/s]
2022-07-08 11:50:46,033 - INFO - tqdm - coref_precision: 0.8809, coref_recall: 0.7989, coref_f1: 0.8376, mention_recall: 0.9826, batch_loss: 21.2675, loss: 18.2000 ||:  32%|###1      | 912/2851 [02:00<03:38,  8.88it/s]
2022-07-08 11:50:56,168 - INFO - tqdm - coref_precision: 0.8780, coref_recall: 0.7926, coref_f1: 0.8329, mention_recall: 0.9809, batch_loss: 34.5562, loss: 19.2535 ||:  34%|###4      | 981/2851 [02:10<04:28,  6.98it/s]
2022-07-08 11:51:06,585 - INFO - tqdm - coref_precision: 0.8768, coref_recall: 0.7902, coref_f1: 0.8311, mention_recall: 0.9805, batch_loss: 21.9818, loss: 19.4723 ||:  37%|###7      | 1055/2851 [02:21<04:58,  6.02it/s]
2022-07-08 11:51:16,737 - INFO - tqdm - coref_precision: 0.8764, coref_recall: 0.7878, coref_f1: 0.8295, mention_recall: 0.9806, batch_loss: 22.0972, loss: 19.8152 ||:  39%|###9      | 1124/2851 [02:31<04:03,  7.10it/s]
2022-07-08 11:51:26,800 - INFO - tqdm - coref_precision: 0.8772, coref_recall: 0.7871, coref_f1: 0.8295, mention_recall: 0.9804, batch_loss: 42.7904, loss: 19.8636 ||:  42%|####2     | 1202/2851 [02:41<05:09,  5.33it/s]
2022-07-08 11:51:36,909 - INFO - tqdm - coref_precision: 0.8762, coref_recall: 0.7851, coref_f1: 0.8279, mention_recall: 0.9805, batch_loss: 9.6965, loss: 20.2162 ||:  44%|####4     | 1268/2851 [02:51<03:34,  7.39it/s]
2022-07-08 11:51:47,099 - INFO - tqdm - coref_precision: 0.8765, coref_recall: 0.7860, coref_f1: 0.8286, mention_recall: 0.9806, batch_loss: 14.4578, loss: 20.1929 ||:  47%|####7     | 1344/2851 [03:01<03:21,  7.46it/s]
2022-07-08 11:51:57,121 - INFO - tqdm - coref_precision: 0.8778, coref_recall: 0.7874, coref_f1: 0.8299, mention_recall: 0.9811, batch_loss: 26.8128, loss: 19.8182 ||:  50%|#####     | 1432/2851 [03:11<02:51,  8.29it/s]
2022-07-08 11:52:07,279 - INFO - tqdm - coref_precision: 0.8753, coref_recall: 0.7842, coref_f1: 0.8271, mention_recall: 0.9806, batch_loss: 12.2540, loss: 20.3088 ||:  52%|#####2    | 1494/2851 [03:22<02:16,  9.95it/s]
2022-07-08 11:52:17,778 - INFO - tqdm - coref_precision: 0.8759, coref_recall: 0.7862, coref_f1: 0.8284, mention_recall: 0.9810, batch_loss: 156.7957, loss: 20.1349 ||:  55%|#####5    | 1574/2851 [03:32<04:08,  5.14it/s]
2022-07-08 11:52:27,873 - INFO - tqdm - coref_precision: 0.8763, coref_recall: 0.7874, coref_f1: 0.8293, mention_recall: 0.9812, batch_loss: 18.4507, loss: 19.9537 ||:  58%|#####8    | 1654/2851 [03:42<02:31,  7.89it/s]
2022-07-08 11:52:38,022 - INFO - tqdm - coref_precision: 0.8770, coref_recall: 0.7884, coref_f1: 0.8301, mention_recall: 0.9815, batch_loss: 242.5378, loss: 19.8063 ||:  61%|######    | 1734/2851 [03:52<03:40,  5.08it/s]
2022-07-08 11:52:48,054 - INFO - tqdm - coref_precision: 0.8770, coref_recall: 0.7876, coref_f1: 0.8297, mention_recall: 0.9815, batch_loss: 0.8294, loss: 19.8389 ||:  63%|######3   | 1808/2851 [04:02<02:26,  7.11it/s]
2022-07-08 11:52:59,173 - INFO - tqdm - coref_precision: 0.8772, coref_recall: 0.7869, coref_f1: 0.8294, mention_recall: 0.9808, batch_loss: 18.0637, loss: 19.9370 ||:  66%|######5   | 1877/2851 [04:13<10:06,  1.61it/s]
2022-07-08 11:53:09,310 - INFO - tqdm - coref_precision: 0.8769, coref_recall: 0.7853, coref_f1: 0.8283, mention_recall: 0.9805, batch_loss: 8.0194, loss: 20.0957 ||:  68%|######8   | 1952/2851 [04:24<01:28, 10.19it/s]
2022-07-08 11:53:19,525 - INFO - tqdm - coref_precision: 0.8768, coref_recall: 0.7855, coref_f1: 0.8284, mention_recall: 0.9805, batch_loss: 28.5044, loss: 20.0727 ||:  71%|#######1  | 2028/2851 [04:34<01:40,  8.19it/s]
2022-07-08 11:53:29,599 - INFO - tqdm - coref_precision: 0.8779, coref_recall: 0.7870, coref_f1: 0.8298, mention_recall: 0.9807, batch_loss: 29.3984, loss: 19.7605 ||:  74%|#######4  | 2115/2851 [04:44<01:26,  8.56it/s]
2022-07-08 11:53:39,676 - INFO - tqdm - coref_precision: 0.8789, coref_recall: 0.7884, coref_f1: 0.8309, mention_recall: 0.9809, batch_loss: 1.6418, loss: 19.5459 ||:  77%|#######7  | 2199/2851 [04:54<01:15,  8.62it/s]
2022-07-08 11:53:49,686 - INFO - tqdm - coref_precision: 0.8782, coref_recall: 0.7876, coref_f1: 0.8302, mention_recall: 0.9809, batch_loss: 11.2760, loss: 19.7303 ||:  80%|#######9  | 2267/2851 [05:04<01:04,  9.12it/s]
2022-07-08 11:53:59,695 - INFO - tqdm - coref_precision: 0.8782, coref_recall: 0.7869, coref_f1: 0.8298, mention_recall: 0.9808, batch_loss: 26.0773, loss: 19.7957 ||:  82%|########2 | 2338/2851 [05:14<01:02,  8.26it/s]
2022-07-08 11:54:09,781 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7871, coref_f1: 0.8296, mention_recall: 0.9808, batch_loss: 10.9430, loss: 19.8555 ||:  85%|########4 | 2410/2851 [05:24<00:54,  8.08it/s]
2022-07-08 11:54:19,923 - INFO - tqdm - coref_precision: 0.8777, coref_recall: 0.7869, coref_f1: 0.8296, mention_recall: 0.9808, batch_loss: 43.6377, loss: 19.7923 ||:  87%|########7 | 2491/2851 [05:34<00:41,  8.63it/s]
2022-07-08 11:54:29,976 - INFO - tqdm - coref_precision: 0.8771, coref_recall: 0.7852, coref_f1: 0.8284, mention_recall: 0.9807, batch_loss: 10.4452, loss: 20.0182 ||:  90%|########9 | 2562/2851 [05:44<00:34,  8.34it/s]
2022-07-08 11:54:40,035 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7856, coref_f1: 0.8287, mention_recall: 0.9808, batch_loss: 7.5984, loss: 19.9187 ||:  93%|#########2| 2645/2851 [05:54<00:23,  8.86it/s]
2022-07-08 11:54:50,056 - INFO - tqdm - coref_precision: 0.8779, coref_recall: 0.7863, coref_f1: 0.8293, mention_recall: 0.9808, batch_loss: 16.6494, loss: 19.8017 ||:  96%|#########5| 2725/2851 [06:04<00:14,  8.90it/s]
2022-07-08 11:55:00,239 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7861, coref_f1: 0.8290, mention_recall: 0.9810, batch_loss: 20.5342, loss: 19.8513 ||:  98%|#########8| 2800/2851 [06:15<00:05,  8.99it/s]
2022-07-08 11:55:04,941 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7862, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 12.1833, loss: 19.8091 ||: 100%|#########9| 2838/2851 [06:19<00:01,  8.85it/s]
2022-07-08 11:55:05,167 - INFO - tqdm - coref_precision: 0.8776, coref_recall: 0.7862, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 14.3437, loss: 19.8006 ||: 100%|#########9| 2840/2851 [06:19<00:01,  8.86it/s]
2022-07-08 11:55:05,289 - INFO - tqdm - coref_precision: 0.8776, coref_recall: 0.7862, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 20.6958, loss: 19.8010 ||: 100%|#########9| 2841/2851 [06:20<00:01,  8.72it/s]
2022-07-08 11:55:05,544 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7861, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 66.4164, loss: 19.8174 ||: 100%|#########9| 2842/2851 [06:20<00:01,  6.90it/s]
2022-07-08 11:55:05,683 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7862, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 14.4139, loss: 19.8155 ||: 100%|#########9| 2843/2851 [06:20<00:01,  6.97it/s]
2022-07-08 11:55:05,863 - INFO - tqdm - coref_precision: 0.8776, coref_recall: 0.7863, coref_f1: 0.8292, mention_recall: 0.9810, batch_loss: 2.6034, loss: 19.8024 ||: 100%|#########9| 2845/2851 [06:20<00:00,  8.20it/s]
2022-07-08 11:55:06,020 - INFO - tqdm - coref_precision: 0.8776, coref_recall: 0.7863, coref_f1: 0.8292, mention_recall: 0.9810, batch_loss: 37.0811, loss: 19.8085 ||: 100%|#########9| 2846/2851 [06:20<00:00,  7.70it/s]
2022-07-08 11:55:06,237 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7863, coref_f1: 0.8292, mention_recall: 0.9810, batch_loss: 17.7749, loss: 19.8097 ||: 100%|#########9| 2848/2851 [06:21<00:00,  8.23it/s]
2022-07-08 11:55:06,443 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7863, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 11.3395, loss: 19.8138 ||: 100%|#########9| 2850/2851 [06:21<00:00,  8.70it/s]
2022-07-08 11:55:06,576 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7863, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 23.4922, loss: 19.8151 ||: 100%|##########| 2851/2851 [06:21<00:00,  8.44it/s]
2022-07-08 11:55:06,577 - INFO - tqdm - coref_precision: 0.8775, coref_recall: 0.7863, coref_f1: 0.8291, mention_recall: 0.9810, batch_loss: 23.4922, loss: 19.8151 ||: 100%|##########| 2851/2851 [06:21<00:00,  7.48it/s]
2022-07-08 11:55:07,457 - INFO - allennlp.training.trainer - Validating
2022-07-08 11:55:07,458 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 11:55:17,671 - INFO - tqdm - coref_precision: 0.7863, coref_recall: 0.7397, coref_f1: 0.7619, mention_recall: 0.9764, batch_loss: 58.9433, loss: 36.7892 ||:  54%|#####4    | 216/397 [00:10<00:12, 14.94it/s]
2022-07-08 11:55:26,917 - INFO - tqdm - coref_precision: 0.7684, coref_recall: 0.7342, coref_f1: 0.7506, mention_recall: 0.9738, batch_loss: 93.1238, loss: 38.0757 ||: 100%|#########9| 396/397 [00:19<00:00, 21.63it/s]
2022-07-08 11:55:26,940 - INFO - tqdm - coref_precision: 0.7685, coref_recall: 0.7343, coref_f1: 0.7507, mention_recall: 0.9738, batch_loss: 6.3447, loss: 37.9957 ||: 100%|##########| 397/397 [00:19<00:00, 20.38it/s]
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.829  |     0.751
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.877  |     0.768
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.786  |     0.734
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger - loss               |    19.815  |    37.996
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.981  |     0.974
2022-07-08 11:55:28,836 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 11:55:28,836 - INFO - allennlp.training.trainer - Epoch duration: 0:06:43.637237
2022-07-08 11:55:28,836 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:14:58
2022-07-08 11:55:28,836 - INFO - allennlp.training.trainer - Epoch 6/149
2022-07-08 11:55:28,836 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 11:55:28,837 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 11:55:28,838 - INFO - allennlp.training.trainer - Training
2022-07-08 11:55:28,838 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 11:55:38,994 - INFO - tqdm - coref_precision: 0.8777, coref_recall: 0.8131, coref_f1: 0.8439, mention_recall: 0.9845, batch_loss: 16.0351, loss: 15.9988 ||:   3%|2         | 73/2851 [00:10<07:13,  6.41it/s]
2022-07-08 11:55:49,030 - INFO - tqdm - coref_precision: 0.8924, coref_recall: 0.8277, coref_f1: 0.8585, mention_recall: 0.9876, batch_loss: 7.8323, loss: 14.4164 ||:   5%|5         | 147/2851 [00:20<05:42,  7.89it/s]
2022-07-08 11:55:59,038 - INFO - tqdm - coref_precision: 0.8907, coref_recall: 0.8208, coref_f1: 0.8540, mention_recall: 0.9866, batch_loss: 5.0174, loss: 14.9384 ||:   8%|7         | 222/2851 [00:30<04:45,  9.22it/s]
2022-07-08 11:56:09,074 - INFO - tqdm - coref_precision: 0.8864, coref_recall: 0.8111, coref_f1: 0.8468, mention_recall: 0.9856, batch_loss: 81.6474, loss: 15.9808 ||:  10%|#         | 295/2851 [00:40<07:52,  5.41it/s]
2022-07-08 11:56:19,114 - INFO - tqdm - coref_precision: 0.8851, coref_recall: 0.8092, coref_f1: 0.8452, mention_recall: 0.9847, batch_loss: 7.9276, loss: 16.3697 ||:  13%|#3        | 371/2851 [00:50<06:01,  6.87it/s]
2022-07-08 11:56:29,226 - INFO - tqdm - coref_precision: 0.8765, coref_recall: 0.8012, coref_f1: 0.8369, mention_recall: 0.9840, batch_loss: 0.1586, loss: 18.2655 ||:  15%|#5        | 433/2851 [01:00<05:31,  7.30it/s]
2022-07-08 11:56:39,256 - INFO - tqdm - coref_precision: 0.8779, coref_recall: 0.7997, coref_f1: 0.8367, mention_recall: 0.9836, batch_loss: 0.0020, loss: 17.9170 ||:  18%|#7        | 509/2851 [01:10<04:00,  9.74it/s]
2022-07-08 11:56:49,300 - INFO - tqdm - coref_precision: 0.8811, coref_recall: 0.8039, coref_f1: 0.8405, mention_recall: 0.9839, batch_loss: 24.7662, loss: 17.1771 ||:  21%|##        | 593/2851 [01:20<04:46,  7.88it/s]
2022-07-08 11:56:59,315 - INFO - tqdm - coref_precision: 0.8827, coref_recall: 0.8048, coref_f1: 0.8417, mention_recall: 0.9844, batch_loss: 7.1943, loss: 17.0256 ||:  24%|##3       | 673/2851 [01:30<04:51,  7.47it/s]
2022-07-08 11:57:09,706 - INFO - tqdm - coref_precision: 0.8838, coref_recall: 0.8043, coref_f1: 0.8419, mention_recall: 0.9842, batch_loss: 74.4433, loss: 16.8259 ||:  27%|##6       | 757/2851 [01:40<06:10,  5.65it/s]
2022-07-08 11:57:20,656 - INFO - tqdm - coref_precision: 0.8818, coref_recall: 0.8006, coref_f1: 0.8390, mention_recall: 0.9840, batch_loss: 489.7136, loss: 17.7005 ||:  28%|##8       | 807/2851 [01:51<38:53,  1.14s/it]
2022-07-08 11:57:30,896 - INFO - tqdm - coref_precision: 0.8823, coref_recall: 0.7989, coref_f1: 0.8383, mention_recall: 0.9837, batch_loss: 218.3704, loss: 17.6787 ||:  31%|###1      | 887/2851 [02:02<07:23,  4.42it/s]
2022-07-08 11:57:41,126 - INFO - tqdm - coref_precision: 0.8783, coref_recall: 0.7905, coref_f1: 0.8319, mention_recall: 0.9825, batch_loss: 493.9590, loss: 18.6887 ||:  33%|###3      | 942/2851 [02:12<09:21,  3.40it/s]
2022-07-08 11:57:51,296 - INFO - tqdm - coref_precision: 0.8803, coref_recall: 0.7929, coref_f1: 0.8341, mention_recall: 0.9821, batch_loss: 22.3655, loss: 18.4529 ||:  36%|###5      | 1022/2851 [02:22<06:18,  4.84it/s]
2022-07-08 11:58:01,327 - INFO - tqdm - coref_precision: 0.8802, coref_recall: 0.7932, coref_f1: 0.8342, mention_recall: 0.9823, batch_loss: 3.7431, loss: 18.6380 ||:  38%|###8      | 1093/2851 [02:32<04:19,  6.77it/s]
2022-07-08 11:58:11,503 - INFO - tqdm - coref_precision: 0.8805, coref_recall: 0.7917, coref_f1: 0.8334, mention_recall: 0.9820, batch_loss: 17.9382, loss: 18.7395 ||:  41%|####1     | 1169/2851 [02:42<03:09,  8.89it/s]
2022-07-08 11:58:21,669 - INFO - tqdm - coref_precision: 0.8819, coref_recall: 0.7948, coref_f1: 0.8358, mention_recall: 0.9824, batch_loss: 54.3729, loss: 18.3929 ||:  44%|####3     | 1247/2851 [02:52<03:30,  7.61it/s]
2022-07-08 11:58:31,686 - INFO - tqdm - coref_precision: 0.8824, coref_recall: 0.7964, coref_f1: 0.8369, mention_recall: 0.9827, batch_loss: 0.9621, loss: 18.1657 ||:  47%|####6     | 1328/2851 [03:02<02:56,  8.65it/s]
2022-07-08 11:58:41,820 - INFO - tqdm - coref_precision: 0.8832, coref_recall: 0.7977, coref_f1: 0.8379, mention_recall: 0.9829, batch_loss: 1.9094, loss: 17.7532 ||:  50%|####9     | 1412/2851 [03:12<03:04,  7.78it/s]
2022-07-08 11:58:52,004 - INFO - tqdm - coref_precision: 0.8842, coref_recall: 0.7994, coref_f1: 0.8393, mention_recall: 0.9832, batch_loss: 34.0309, loss: 17.5661 ||:  52%|#####2    | 1490/2851 [03:23<03:14,  7.01it/s]
2022-07-08 11:59:02,060 - INFO - tqdm - coref_precision: 0.8845, coref_recall: 0.7984, coref_f1: 0.8389, mention_recall: 0.9822, batch_loss: 83.5465, loss: 17.5567 ||:  55%|#####4    | 1567/2851 [03:33<03:35,  5.96it/s]
2022-07-08 11:59:12,148 - INFO - tqdm - coref_precision: 0.8853, coref_recall: 0.7988, coref_f1: 0.8395, mention_recall: 0.9822, batch_loss: 0.3805, loss: 17.5208 ||:  58%|#####7    | 1641/2851 [03:43<02:24,  8.35it/s]
2022-07-08 11:59:22,352 - INFO - tqdm - coref_precision: 0.8836, coref_recall: 0.7962, coref_f1: 0.8373, mention_recall: 0.9820, batch_loss: 22.3075, loss: 18.1009 ||:  60%|#####9    | 1710/2851 [03:53<02:13,  8.56it/s]
2022-07-08 11:59:32,465 - INFO - tqdm - coref_precision: 0.8850, coref_recall: 0.7985, coref_f1: 0.8392, mention_recall: 0.9823, batch_loss: 10.0262, loss: 17.8154 ||:  63%|######2   | 1793/2851 [04:03<02:17,  7.71it/s]
2022-07-08 11:59:42,475 - INFO - tqdm - coref_precision: 0.8848, coref_recall: 0.7991, coref_f1: 0.8395, mention_recall: 0.9823, batch_loss: 29.6558, loss: 17.9227 ||:  65%|######5   | 1858/2851 [04:13<02:39,  6.23it/s]
2022-07-08 11:59:52,506 - INFO - tqdm - coref_precision: 0.8852, coref_recall: 0.8003, coref_f1: 0.8403, mention_recall: 0.9825, batch_loss: 11.0024, loss: 17.9523 ||:  68%|######7   | 1930/2851 [04:23<01:55,  7.97it/s]
2022-07-08 12:00:02,578 - INFO - tqdm - coref_precision: 0.8857, coref_recall: 0.8013, coref_f1: 0.8411, mention_recall: 0.9826, batch_loss: 4.4735, loss: 17.7836 ||:  71%|#######   | 2012/2851 [04:33<01:41,  8.24it/s]
2022-07-08 12:00:12,605 - INFO - tqdm - coref_precision: 0.8859, coref_recall: 0.8017, coref_f1: 0.8414, mention_recall: 0.9824, batch_loss: 26.3260, loss: 17.6886 ||:  73%|#######3  | 2086/2851 [04:43<01:57,  6.54it/s]
2022-07-08 12:00:22,814 - INFO - tqdm - coref_precision: 0.8840, coref_recall: 0.8005, coref_f1: 0.8399, mention_recall: 0.9825, batch_loss: 154.5970, loss: 18.0598 ||:  75%|#######5  | 2146/2851 [04:53<04:10,  2.81it/s]
2022-07-08 12:00:32,926 - INFO - tqdm - coref_precision: 0.8843, coref_recall: 0.8011, coref_f1: 0.8403, mention_recall: 0.9826, batch_loss: 17.7186, loss: 17.9720 ||:  78%|#######8  | 2225/2851 [05:04<01:14,  8.38it/s]
2022-07-08 12:00:42,927 - INFO - tqdm - coref_precision: 0.8845, coref_recall: 0.8013, coref_f1: 0.8405, mention_recall: 0.9827, batch_loss: 7.8969, loss: 17.8972 ||:  81%|########  | 2302/2851 [05:14<01:03,  8.65it/s]
2022-07-08 12:00:52,932 - INFO - tqdm - coref_precision: 0.8841, coref_recall: 0.8012, coref_f1: 0.8403, mention_recall: 0.9825, batch_loss: 19.1075, loss: 18.0288 ||:  83%|########3 | 2372/2851 [05:24<01:09,  6.86it/s]
2022-07-08 12:01:03,076 - INFO - tqdm - coref_precision: 0.8845, coref_recall: 0.8011, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 17.6617, loss: 17.9354 ||:  86%|########6 | 2453/2851 [05:34<00:53,  7.42it/s]
2022-07-08 12:01:13,429 - INFO - tqdm - coref_precision: 0.8842, coref_recall: 0.8015, coref_f1: 0.8405, mention_recall: 0.9824, batch_loss: 73.6419, loss: 17.9593 ||:  89%|########8 | 2529/2851 [05:44<00:51,  6.19it/s]
2022-07-08 12:01:23,521 - INFO - tqdm - coref_precision: 0.8839, coref_recall: 0.8007, coref_f1: 0.8400, mention_recall: 0.9822, batch_loss: 1.7069, loss: 17.9402 ||:  92%|#########1| 2609/2851 [05:54<00:26,  9.12it/s]
2022-07-08 12:01:33,696 - INFO - tqdm - coref_precision: 0.8841, coref_recall: 0.8008, coref_f1: 0.8401, mention_recall: 0.9822, batch_loss: 36.9247, loss: 17.9673 ||:  94%|#########3| 2679/2851 [06:04<00:23,  7.43it/s]
2022-07-08 12:01:43,794 - INFO - tqdm - coref_precision: 0.8843, coref_recall: 0.8010, coref_f1: 0.8403, mention_recall: 0.9823, batch_loss: 2.8850, loss: 17.8956 ||:  97%|#########6| 2755/2851 [06:14<00:10,  9.23it/s]
2022-07-08 12:01:53,810 - INFO - tqdm - coref_precision: 0.8844, coref_recall: 0.8012, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 22.8417, loss: 17.8664 ||:  99%|#########9| 2831/2851 [06:24<00:03,  5.32it/s]
2022-07-08 12:01:54,766 - INFO - tqdm - coref_precision: 0.8843, coref_recall: 0.8012, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 53.6142, loss: 17.8709 ||: 100%|#########9| 2837/2851 [06:25<00:02,  6.08it/s]
2022-07-08 12:01:54,883 - INFO - tqdm - coref_precision: 0.8843, coref_recall: 0.8013, coref_f1: 0.8405, mention_recall: 0.9824, batch_loss: 4.2942, loss: 17.8661 ||: 100%|#########9| 2838/2851 [06:26<00:01,  6.54it/s]
2022-07-08 12:01:55,054 - INFO - tqdm - coref_precision: 0.8844, coref_recall: 0.8013, coref_f1: 0.8405, mention_recall: 0.9824, batch_loss: 0.0450, loss: 17.8535 ||: 100%|#########9| 2840/2851 [06:26<00:01,  8.00it/s]
2022-07-08 12:01:55,170 - INFO - tqdm - coref_precision: 0.8843, coref_recall: 0.8013, coref_f1: 0.8405, mention_recall: 0.9824, batch_loss: 28.6548, loss: 17.8573 ||: 100%|#########9| 2841/2851 [06:26<00:01,  8.13it/s]
2022-07-08 12:01:55,293 - INFO - tqdm - coref_precision: 0.8843, coref_recall: 0.8013, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 22.0551, loss: 17.8588 ||: 100%|#########9| 2842/2851 [06:26<00:01,  8.14it/s]
2022-07-08 12:01:55,406 - INFO - tqdm - coref_precision: 0.8843, coref_recall: 0.8013, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 10.9909, loss: 17.8564 ||: 100%|#########9| 2843/2851 [06:26<00:00,  8.30it/s]
2022-07-08 12:01:55,593 - INFO - tqdm - coref_precision: 0.8844, coref_recall: 0.8013, coref_f1: 0.8405, mention_recall: 0.9824, batch_loss: 1.8133, loss: 17.8458 ||: 100%|#########9| 2845/2851 [06:26<00:00,  9.18it/s]
2022-07-08 12:01:55,824 - INFO - tqdm - coref_precision: 0.8844, coref_recall: 0.8013, coref_f1: 0.8405, mention_recall: 0.9824, batch_loss: 22.0744, loss: 17.8413 ||: 100%|#########9| 2847/2851 [06:26<00:00,  8.97it/s]
2022-07-08 12:01:55,968 - INFO - tqdm - coref_precision: 0.8844, coref_recall: 0.8012, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 73.4431, loss: 17.8608 ||: 100%|#########9| 2848/2851 [06:27<00:00,  8.45it/s]
2022-07-08 12:01:56,163 - INFO - tqdm - coref_precision: 0.8844, coref_recall: 0.8012, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 27.7078, loss: 17.8654 ||: 100%|#########9| 2850/2851 [06:27<00:00,  9.06it/s]
2022-07-08 12:01:56,257 - INFO - tqdm - coref_precision: 0.8844, coref_recall: 0.8012, coref_f1: 0.8404, mention_recall: 0.9824, batch_loss: 14.3065, loss: 17.8642 ||: 100%|##########| 2851/2851 [06:27<00:00,  7.36it/s]
2022-07-08 12:01:57,140 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:01:57,141 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:02:07,310 - INFO - tqdm - coref_precision: 0.7997, coref_recall: 0.7050, coref_f1: 0.7491, mention_recall: 0.9701, batch_loss: 179.1177, loss: 40.0556 ||:  54%|#####3    | 213/397 [00:10<00:10, 18.35it/s]
2022-07-08 12:02:17,364 - INFO - tqdm - coref_precision: 0.8008, coref_recall: 0.7111, coref_f1: 0.7531, mention_recall: 0.9707, batch_loss: 9.5249, loss: 39.8988 ||:  93%|#########3| 370/397 [00:20<00:01, 22.33it/s]
2022-07-08 12:02:19,078 - INFO - tqdm - coref_precision: 0.7988, coref_recall: 0.7092, coref_f1: 0.7512, mention_recall: 0.9706, batch_loss: 11.6262, loss: 40.2058 ||: 100%|##########| 397/397 [00:21<00:00, 23.94it/s]
2022-07-08 12:02:19,078 - INFO - tqdm - coref_precision: 0.7988, coref_recall: 0.7092, coref_f1: 0.7512, mention_recall: 0.9706, batch_loss: 11.6262, loss: 40.2058 ||: 100%|##########| 397/397 [00:21<00:00, 18.10it/s]
2022-07-08 12:02:20,813 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.840  |     0.751
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.884  |     0.799
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.801  |     0.709
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger - loss               |    17.864  |    40.206
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.982  |     0.971
2022-07-08 12:02:22,339 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:02:22,339 - INFO - allennlp.training.trainer - Epoch duration: 0:06:53.502860
2022-07-08 12:02:22,339 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:10:40
2022-07-08 12:02:22,339 - INFO - allennlp.training.trainer - Epoch 7/149
2022-07-08 12:02:22,339 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:02:22,340 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:02:22,341 - INFO - allennlp.training.trainer - Training
2022-07-08 12:02:22,341 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:02:32,358 - INFO - tqdm - coref_precision: 0.8897, coref_recall: 0.8168, coref_f1: 0.8514, mention_recall: 0.9833, batch_loss: 14.5663, loss: 15.8927 ||:   3%|2         | 76/2851 [00:10<05:30,  8.40it/s]
2022-07-08 12:02:42,430 - INFO - tqdm - coref_precision: 0.8758, coref_recall: 0.8094, coref_f1: 0.8409, mention_recall: 0.9828, batch_loss: 44.7530, loss: 19.1720 ||:   5%|4         | 141/2851 [00:20<06:28,  6.97it/s]
2022-07-08 12:02:52,562 - INFO - tqdm - coref_precision: 0.8885, coref_recall: 0.8220, coref_f1: 0.8535, mention_recall: 0.9838, batch_loss: 0.1220, loss: 16.0429 ||:   8%|7         | 221/2851 [00:30<05:13,  8.40it/s]
2022-07-08 12:03:02,596 - INFO - tqdm - coref_precision: 0.8902, coref_recall: 0.8216, coref_f1: 0.8541, mention_recall: 0.9841, batch_loss: 58.9873, loss: 16.4064 ||:  10%|#         | 292/2851 [00:40<07:35,  5.61it/s]
2022-07-08 12:03:12,684 - INFO - tqdm - coref_precision: 0.8869, coref_recall: 0.8052, coref_f1: 0.8437, mention_recall: 0.9811, batch_loss: 3.8455, loss: 18.4396 ||:  13%|#2        | 362/2851 [00:50<04:38,  8.92it/s]
2022-07-08 12:03:22,860 - INFO - tqdm - coref_precision: 0.8909, coref_recall: 0.8026, coref_f1: 0.8441, mention_recall: 0.9800, batch_loss: 14.9737, loss: 17.9827 ||:  15%|#5        | 431/2851 [01:00<05:06,  7.90it/s]
2022-07-08 12:03:33,059 - INFO - tqdm - coref_precision: 0.8920, coref_recall: 0.8010, coref_f1: 0.8436, mention_recall: 0.9801, batch_loss: 6.2686, loss: 17.2358 ||:  18%|#7        | 513/2851 [01:10<04:16,  9.10it/s]
2022-07-08 12:03:43,145 - INFO - tqdm - coref_precision: 0.8974, coref_recall: 0.8095, coref_f1: 0.8506, mention_recall: 0.9810, batch_loss: 17.6159, loss: 16.0740 ||:  21%|##        | 597/2851 [01:20<04:34,  8.21it/s]
2022-07-08 12:03:53,230 - INFO - tqdm - coref_precision: 0.8925, coref_recall: 0.8045, coref_f1: 0.8458, mention_recall: 0.9808, batch_loss: 5.9418, loss: 17.2984 ||:  23%|##3       | 668/2851 [01:30<04:33,  7.97it/s]
2022-07-08 12:04:03,381 - INFO - tqdm - coref_precision: 0.8942, coref_recall: 0.8085, coref_f1: 0.8488, mention_recall: 0.9815, batch_loss: 86.8272, loss: 16.9092 ||:  26%|##6       | 747/2851 [01:41<05:45,  6.08it/s]
2022-07-08 12:04:13,493 - INFO - tqdm - coref_precision: 0.8919, coref_recall: 0.8056, coref_f1: 0.8462, mention_recall: 0.9810, batch_loss: 1.6595, loss: 17.4521 ||:  28%|##8       | 811/2851 [01:51<04:37,  7.34it/s]
2022-07-08 12:04:23,497 - INFO - tqdm - coref_precision: 0.8905, coref_recall: 0.8065, coref_f1: 0.8462, mention_recall: 0.9813, batch_loss: 131.2211, loss: 18.0098 ||:  31%|###       | 879/2851 [02:01<05:01,  6.54it/s]
2022-07-08 12:04:33,931 - INFO - tqdm - coref_precision: 0.8880, coref_recall: 0.8060, coref_f1: 0.8448, mention_recall: 0.9819, batch_loss: 148.1866, loss: 18.3669 ||:  33%|###3      | 949/2851 [02:11<06:58,  4.54it/s]
2022-07-08 12:04:43,931 - INFO - tqdm - coref_precision: 0.8897, coref_recall: 0.8080, coref_f1: 0.8466, mention_recall: 0.9824, batch_loss: 5.9722, loss: 17.7990 ||:  36%|###6      | 1031/2851 [02:21<03:23,  8.93it/s]
2022-07-08 12:04:55,369 - INFO - tqdm - coref_precision: 0.8886, coref_recall: 0.8069, coref_f1: 0.8455, mention_recall: 0.9826, batch_loss: 528.3336, loss: 18.1625 ||:  39%|###9      | 1112/2851 [02:33<11:36,  2.50it/s]
2022-07-08 12:05:05,440 - INFO - tqdm - coref_precision: 0.8902, coref_recall: 0.8095, coref_f1: 0.8476, mention_recall: 0.9829, batch_loss: 5.9658, loss: 17.7632 ||:  42%|####1     | 1190/2851 [02:43<03:01,  9.18it/s]
2022-07-08 12:05:15,590 - INFO - tqdm - coref_precision: 0.8903, coref_recall: 0.8103, coref_f1: 0.8481, mention_recall: 0.9831, batch_loss: 55.2745, loss: 17.4804 ||:  45%|####4     | 1273/2851 [02:53<03:37,  7.25it/s]
2022-07-08 12:05:25,660 - INFO - tqdm - coref_precision: 0.8921, coref_recall: 0.8125, coref_f1: 0.8501, mention_recall: 0.9834, batch_loss: 10.6711, loss: 17.1530 ||:  48%|####7     | 1356/2851 [03:03<03:05,  8.08it/s]
2022-07-08 12:05:35,755 - INFO - tqdm - coref_precision: 0.8924, coref_recall: 0.8127, coref_f1: 0.8503, mention_recall: 0.9835, batch_loss: 71.0286, loss: 17.1208 ||:  50%|#####     | 1436/2851 [03:13<02:58,  7.95it/s]
2022-07-08 12:05:45,877 - INFO - tqdm - coref_precision: 0.8926, coref_recall: 0.8133, coref_f1: 0.8508, mention_recall: 0.9836, batch_loss: 15.2544, loss: 16.9926 ||:  53%|#####3    | 1518/2851 [03:23<02:45,  8.04it/s]
2022-07-08 12:05:55,959 - INFO - tqdm - coref_precision: 0.8934, coref_recall: 0.8144, coref_f1: 0.8517, mention_recall: 0.9834, batch_loss: 0.0935, loss: 16.6660 ||:  56%|#####6    | 1604/2851 [03:33<02:38,  7.88it/s]
2022-07-08 12:06:06,067 - INFO - tqdm - coref_precision: 0.8942, coref_recall: 0.8155, coref_f1: 0.8527, mention_recall: 0.9832, batch_loss: 1.0916, loss: 16.4598 ||:  59%|#####8    | 1681/2851 [03:43<02:22,  8.21it/s]
2022-07-08 12:06:16,157 - INFO - tqdm - coref_precision: 0.8951, coref_recall: 0.8153, coref_f1: 0.8530, mention_recall: 0.9832, batch_loss: 8.5603, loss: 16.2860 ||:  62%|######1   | 1761/2851 [03:53<02:01,  8.96it/s]
2022-07-08 12:06:26,325 - INFO - tqdm - coref_precision: 0.8955, coref_recall: 0.8162, coref_f1: 0.8536, mention_recall: 0.9833, batch_loss: 20.9135, loss: 16.1305 ||:  65%|######4   | 1842/2851 [04:03<01:59,  8.48it/s]
2022-07-08 12:06:36,413 - INFO - tqdm - coref_precision: 0.8957, coref_recall: 0.8161, coref_f1: 0.8537, mention_recall: 0.9831, batch_loss: 25.2499, loss: 16.1424 ||:  67%|######7   | 1916/2851 [04:14<02:37,  5.95it/s]
2022-07-08 12:06:46,483 - INFO - tqdm - coref_precision: 0.8967, coref_recall: 0.8170, coref_f1: 0.8546, mention_recall: 0.9833, batch_loss: 1.6620, loss: 16.0270 ||:  70%|#######   | 1996/2851 [04:24<02:12,  6.45it/s]
2022-07-08 12:06:56,816 - INFO - tqdm - coref_precision: 0.8949, coref_recall: 0.8135, coref_f1: 0.8519, mention_recall: 0.9824, batch_loss: 45.9247, loss: 16.3553 ||:  72%|#######1  | 2041/2851 [04:34<09:44,  1.39it/s]
2022-07-08 12:07:06,961 - INFO - tqdm - coref_precision: 0.8955, coref_recall: 0.8143, coref_f1: 0.8526, mention_recall: 0.9825, batch_loss: 55.1443, loss: 16.2435 ||:  74%|#######4  | 2116/2851 [04:44<01:48,  6.76it/s]
2022-07-08 12:07:16,999 - INFO - tqdm - coref_precision: 0.8952, coref_recall: 0.8142, coref_f1: 0.8524, mention_recall: 0.9824, batch_loss: 7.7719, loss: 16.2794 ||:  77%|#######6  | 2184/2851 [04:54<01:57,  5.67it/s]
2022-07-08 12:07:27,041 - INFO - tqdm - coref_precision: 0.8953, coref_recall: 0.8142, coref_f1: 0.8524, mention_recall: 0.9824, batch_loss: 38.6506, loss: 16.2590 ||:  79%|#######9  | 2263/2851 [05:04<01:23,  7.03it/s]
2022-07-08 12:07:37,183 - INFO - tqdm - coref_precision: 0.8953, coref_recall: 0.8142, coref_f1: 0.8525, mention_recall: 0.9824, batch_loss: 32.7340, loss: 16.2533 ||:  82%|########2 | 2339/2851 [05:14<01:20,  6.37it/s]
2022-07-08 12:07:47,279 - INFO - tqdm - coref_precision: 0.8956, coref_recall: 0.8144, coref_f1: 0.8528, mention_recall: 0.9825, batch_loss: 25.9943, loss: 16.3011 ||:  85%|########4 | 2411/2851 [05:24<01:03,  6.90it/s]
2022-07-08 12:07:57,610 - INFO - tqdm - coref_precision: 0.8940, coref_recall: 0.8124, coref_f1: 0.8509, mention_recall: 0.9818, batch_loss: 61.3442, loss: 16.6167 ||:  87%|########6 | 2479/2851 [05:35<01:27,  4.28it/s]
2022-07-08 12:08:07,828 - INFO - tqdm - coref_precision: 0.8942, coref_recall: 0.8126, coref_f1: 0.8511, mention_recall: 0.9819, batch_loss: 15.8487, loss: 16.5239 ||:  90%|########9 | 2560/2851 [05:45<00:34,  8.43it/s]
2022-07-08 12:08:17,844 - INFO - tqdm - coref_precision: 0.8949, coref_recall: 0.8140, coref_f1: 0.8522, mention_recall: 0.9820, batch_loss: 0.1863, loss: 16.3676 ||:  92%|#########2| 2636/2851 [05:55<00:24,  8.87it/s]
2022-07-08 12:08:27,997 - INFO - tqdm - coref_precision: 0.8954, coref_recall: 0.8147, coref_f1: 0.8528, mention_recall: 0.9822, batch_loss: 6.6703, loss: 16.3502 ||:  95%|#########5| 2717/2851 [06:05<00:14,  9.46it/s]
2022-07-08 12:08:38,095 - INFO - tqdm - coref_precision: 0.8956, coref_recall: 0.8150, coref_f1: 0.8531, mention_recall: 0.9824, batch_loss: 0.4169, loss: 16.3053 ||:  98%|#########8| 2798/2851 [06:15<00:06,  8.61it/s]
2022-07-08 12:08:42,600 - INFO - tqdm - coref_precision: 0.8962, coref_recall: 0.8155, coref_f1: 0.8536, mention_recall: 0.9824, batch_loss: 1.2939, loss: 16.2217 ||: 100%|#########9| 2837/2851 [06:20<00:01,  9.77it/s]
2022-07-08 12:08:42,823 - INFO - tqdm - coref_precision: 0.8961, coref_recall: 0.8154, coref_f1: 0.8535, mention_recall: 0.9824, batch_loss: 57.2878, loss: 16.2362 ||: 100%|#########9| 2838/2851 [06:20<00:01,  7.81it/s]
2022-07-08 12:08:43,005 - INFO - tqdm - coref_precision: 0.8961, coref_recall: 0.8154, coref_f1: 0.8535, mention_recall: 0.9824, batch_loss: 0.2252, loss: 16.2264 ||: 100%|#########9| 2840/2851 [06:20<00:01,  8.76it/s]
2022-07-08 12:08:43,303 - INFO - tqdm - coref_precision: 0.8961, coref_recall: 0.8155, coref_f1: 0.8535, mention_recall: 0.9824, batch_loss: 19.9767, loss: 16.2221 ||: 100%|#########9| 2842/2851 [06:20<00:01,  7.92it/s]
2022-07-08 12:08:43,418 - INFO - tqdm - coref_precision: 0.8961, coref_recall: 0.8154, coref_f1: 0.8535, mention_recall: 0.9824, batch_loss: 5.5647, loss: 16.2183 ||: 100%|#########9| 2843/2851 [06:21<00:00,  8.06it/s]
2022-07-08 12:08:43,529 - INFO - tqdm - coref_precision: 0.8962, coref_recall: 0.8154, coref_f1: 0.8535, mention_recall: 0.9824, batch_loss: 0.9934, loss: 16.2130 ||: 100%|#########9| 2844/2851 [06:21<00:00,  8.25it/s]
2022-07-08 12:08:43,673 - INFO - tqdm - coref_precision: 0.8962, coref_recall: 0.8155, coref_f1: 0.8536, mention_recall: 0.9824, batch_loss: 14.2405, loss: 16.2123 ||: 100%|#########9| 2845/2851 [06:21<00:00,  7.89it/s]
2022-07-08 12:08:43,849 - INFO - tqdm - coref_precision: 0.8962, coref_recall: 0.8155, coref_f1: 0.8536, mention_recall: 0.9824, batch_loss: 0.0518, loss: 16.2010 ||: 100%|#########9| 2847/2851 [06:21<00:00,  9.03it/s]
2022-07-08 12:08:44,024 - INFO - tqdm - coref_precision: 0.8962, coref_recall: 0.8155, coref_f1: 0.8536, mention_recall: 0.9824, batch_loss: 1.8895, loss: 16.1932 ||: 100%|#########9| 2849/2851 [06:21<00:00,  9.77it/s]
2022-07-08 12:08:44,228 - INFO - tqdm - coref_precision: 0.8962, coref_recall: 0.8155, coref_f1: 0.8536, mention_recall: 0.9824, batch_loss: 15.6099, loss: 16.1874 ||: 100%|##########| 2851/2851 [06:21<00:00,  9.79it/s]
2022-07-08 12:08:44,229 - INFO - tqdm - coref_precision: 0.8962, coref_recall: 0.8155, coref_f1: 0.8536, mention_recall: 0.9824, batch_loss: 15.6099, loss: 16.1874 ||: 100%|##########| 2851/2851 [06:21<00:00,  7.47it/s]
2022-07-08 12:08:45,114 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:08:45,115 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:08:55,188 - INFO - tqdm - coref_precision: 0.7736, coref_recall: 0.7231, coref_f1: 0.7473, mention_recall: 0.9635, batch_loss: 22.1756, loss: 51.9157 ||:  50%|#####     | 199/397 [00:10<00:09, 21.00it/s]
2022-07-08 12:09:04,670 - INFO - tqdm - coref_precision: 0.7752, coref_recall: 0.7205, coref_f1: 0.7466, mention_recall: 0.9615, batch_loss: 36.3520, loss: 52.6580 ||: 100%|##########| 397/397 [00:19<00:00, 20.30it/s]
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.854  |     0.747
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.896  |     0.775
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.816  |     0.720
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger - loss               |    16.187  |    52.658
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.982  |     0.962
2022-07-08 12:09:06,575 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:09:06,575 - INFO - allennlp.training.trainer - Epoch duration: 0:06:44.236039
2022-07-08 12:09:06,575 - INFO - allennlp.training.trainer - Estimated training time remaining: 16:02:59
2022-07-08 12:09:06,576 - INFO - allennlp.training.trainer - Epoch 8/149
2022-07-08 12:09:06,576 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:09:06,576 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:09:06,577 - INFO - allennlp.training.trainer - Training
2022-07-08 12:09:06,577 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:09:16,686 - INFO - tqdm - coref_precision: 0.9037, coref_recall: 0.8330, coref_f1: 0.8667, mention_recall: 0.9818, batch_loss: 6.0075, loss: 15.1389 ||:   2%|2         | 70/2851 [00:10<05:47,  8.00it/s]
2022-07-08 12:09:26,736 - INFO - tqdm - coref_precision: 0.9061, coref_recall: 0.8328, coref_f1: 0.8677, mention_recall: 0.9809, batch_loss: 1.7711, loss: 13.7550 ||:   5%|5         | 146/2851 [00:20<04:42,  9.57it/s]
2022-07-08 12:09:36,762 - INFO - tqdm - coref_precision: 0.9129, coref_recall: 0.8381, coref_f1: 0.8737, mention_recall: 0.9816, batch_loss: 5.7123, loss: 12.7268 ||:   8%|7         | 227/2851 [00:30<05:34,  7.85it/s]
2022-07-08 12:09:46,896 - INFO - tqdm - coref_precision: 0.9161, coref_recall: 0.8459, coref_f1: 0.8793, mention_recall: 0.9833, batch_loss: 20.3222, loss: 12.0467 ||:  11%|#1        | 314/2851 [00:40<05:09,  8.20it/s]
2022-07-08 12:09:56,941 - INFO - tqdm - coref_precision: 0.9084, coref_recall: 0.8375, coref_f1: 0.8713, mention_recall: 0.9806, batch_loss: 894.9355, loss: 14.0857 ||:  14%|#3        | 387/2851 [00:50<14:17,  2.87it/s]
2022-07-08 12:10:07,090 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8407, coref_f1: 0.8748, mention_recall: 0.9814, batch_loss: 1.8155, loss: 13.3212 ||:  16%|#6        | 467/2851 [01:00<04:02,  9.81it/s]
2022-07-08 12:10:17,326 - INFO - tqdm - coref_precision: 0.9110, coref_recall: 0.8377, coref_f1: 0.8726, mention_recall: 0.9810, batch_loss: 17.6776, loss: 13.3849 ||:  19%|#9        | 547/2851 [01:10<05:52,  6.53it/s]
2022-07-08 12:10:27,378 - INFO - tqdm - coref_precision: 0.9117, coref_recall: 0.8390, coref_f1: 0.8736, mention_recall: 0.9816, batch_loss: 23.5744, loss: 13.3078 ||:  22%|##1       | 620/2851 [01:20<04:53,  7.59it/s]
2022-07-08 12:10:37,417 - INFO - tqdm - coref_precision: 0.9099, coref_recall: 0.8336, coref_f1: 0.8698, mention_recall: 0.9813, batch_loss: 3.7893, loss: 13.6040 ||:  24%|##4       | 694/2851 [01:30<05:20,  6.72it/s]
2022-07-08 12:10:47,552 - INFO - tqdm - coref_precision: 0.9111, coref_recall: 0.8341, coref_f1: 0.8706, mention_recall: 0.9820, batch_loss: 19.8522, loss: 13.4208 ||:  27%|##7       | 776/2851 [01:40<04:52,  7.08it/s]
2022-07-08 12:10:57,685 - INFO - tqdm - coref_precision: 0.9081, coref_recall: 0.8311, coref_f1: 0.8676, mention_recall: 0.9824, batch_loss: 11.4074, loss: 13.8500 ||:  30%|##9       | 849/2851 [01:51<04:26,  7.52it/s]
2022-07-08 12:11:07,843 - INFO - tqdm - coref_precision: 0.9044, coref_recall: 0.8290, coref_f1: 0.8647, mention_recall: 0.9825, batch_loss: 42.2435, loss: 14.2961 ||:  32%|###2      | 919/2851 [02:01<04:46,  6.75it/s]
2022-07-08 12:11:18,083 - INFO - tqdm - coref_precision: 0.9036, coref_recall: 0.8291, coref_f1: 0.8644, mention_recall: 0.9831, batch_loss: 25.8632, loss: 14.4940 ||:  35%|###5      | 998/2851 [02:11<04:10,  7.38it/s]
2022-07-08 12:11:28,175 - INFO - tqdm - coref_precision: 0.9033, coref_recall: 0.8286, coref_f1: 0.8640, mention_recall: 0.9825, batch_loss: 3.6657, loss: 14.5298 ||:  37%|###7      | 1056/2851 [02:21<03:42,  8.08it/s]
2022-07-08 12:11:38,243 - INFO - tqdm - coref_precision: 0.9027, coref_recall: 0.8286, coref_f1: 0.8637, mention_recall: 0.9827, batch_loss: 15.6166, loss: 14.7063 ||:  40%|###9      | 1130/2851 [02:31<03:47,  7.55it/s]
2022-07-08 12:11:48,452 - INFO - tqdm - coref_precision: 0.9050, coref_recall: 0.8313, coref_f1: 0.8662, mention_recall: 0.9831, batch_loss: 2.4984, loss: 14.4044 ||:  42%|####2     | 1210/2851 [02:41<03:29,  7.82it/s]
2022-07-08 12:11:58,571 - INFO - tqdm - coref_precision: 0.9008, coref_recall: 0.8295, coref_f1: 0.8633, mention_recall: 0.9833, batch_loss: 0.2702, loss: 15.1534 ||:  45%|####4     | 1275/2851 [02:51<03:30,  7.48it/s]
2022-07-08 12:12:08,596 - INFO - tqdm - coref_precision: 0.8991, coref_recall: 0.8260, coref_f1: 0.8606, mention_recall: 0.9828, batch_loss: 0.7049, loss: 15.5475 ||:  47%|####6     | 1335/2851 [03:02<03:32,  7.13it/s]
2022-07-08 12:12:18,745 - INFO - tqdm - coref_precision: 0.9001, coref_recall: 0.8271, coref_f1: 0.8617, mention_recall: 0.9830, batch_loss: 0.0051, loss: 15.4075 ||:  50%|####9     | 1414/2851 [03:12<03:25,  6.98it/s]
2022-07-08 12:12:28,824 - INFO - tqdm - coref_precision: 0.9007, coref_recall: 0.8259, coref_f1: 0.8613, mention_recall: 0.9829, batch_loss: 48.8923, loss: 15.4267 ||:  52%|#####2    | 1489/2851 [03:22<03:21,  6.76it/s]
2022-07-08 12:12:38,960 - INFO - tqdm - coref_precision: 0.9000, coref_recall: 0.8249, coref_f1: 0.8605, mention_recall: 0.9829, batch_loss: 5.7557, loss: 15.5756 ||:  55%|#####4    | 1568/2851 [03:32<02:16,  9.43it/s]
2022-07-08 12:12:49,045 - INFO - tqdm - coref_precision: 0.9003, coref_recall: 0.8250, coref_f1: 0.8607, mention_recall: 0.9829, batch_loss: 17.3053, loss: 15.5321 ||:  58%|#####7    | 1640/2851 [03:42<02:57,  6.81it/s]
2022-07-08 12:12:59,124 - INFO - tqdm - coref_precision: 0.9007, coref_recall: 0.8262, coref_f1: 0.8614, mention_recall: 0.9833, batch_loss: 41.0435, loss: 15.4358 ||:  60%|######    | 1716/2851 [03:52<02:38,  7.18it/s]
2022-07-08 12:13:09,134 - INFO - tqdm - coref_precision: 0.9009, coref_recall: 0.8259, coref_f1: 0.8614, mention_recall: 0.9833, batch_loss: 0.3782, loss: 15.4003 ||:  63%|######2   | 1789/2851 [04:02<02:12,  8.03it/s]
2022-07-08 12:13:19,138 - INFO - tqdm - coref_precision: 0.9002, coref_recall: 0.8251, coref_f1: 0.8606, mention_recall: 0.9833, batch_loss: 0.7143, loss: 15.5151 ||:  65%|######5   | 1856/2851 [04:12<02:24,  6.86it/s]
2022-07-08 12:13:29,157 - INFO - tqdm - coref_precision: 0.8999, coref_recall: 0.8243, coref_f1: 0.8601, mention_recall: 0.9832, batch_loss: 61.0251, loss: 15.6454 ||:  67%|######7   | 1924/2851 [04:22<02:26,  6.34it/s]
2022-07-08 12:13:39,334 - INFO - tqdm - coref_precision: 0.8989, coref_recall: 0.8237, coref_f1: 0.8593, mention_recall: 0.9831, batch_loss: 1.4930, loss: 15.8534 ||:  70%|######9   | 1990/2851 [04:32<02:15,  6.36it/s]
2022-07-08 12:13:49,415 - INFO - tqdm - coref_precision: 0.8998, coref_recall: 0.8246, coref_f1: 0.8602, mention_recall: 0.9832, batch_loss: 0.0042, loss: 15.6631 ||:  73%|#######2  | 2072/2851 [04:42<01:26,  9.03it/s]
2022-07-08 12:13:59,459 - INFO - tqdm - coref_precision: 0.9002, coref_recall: 0.8253, coref_f1: 0.8607, mention_recall: 0.9833, batch_loss: 6.3491, loss: 15.4777 ||:  76%|#######5  | 2157/2851 [04:52<01:14,  9.33it/s]
2022-07-08 12:14:09,494 - INFO - tqdm - coref_precision: 0.9007, coref_recall: 0.8259, coref_f1: 0.8613, mention_recall: 0.9835, batch_loss: 19.9504, loss: 15.4004 ||:  78%|#######8  | 2233/2851 [05:02<01:36,  6.43it/s]
2022-07-08 12:14:19,746 - INFO - tqdm - coref_precision: 0.9007, coref_recall: 0.8256, coref_f1: 0.8611, mention_recall: 0.9835, batch_loss: 10.9718, loss: 15.3569 ||:  81%|########1 | 2310/2851 [05:13<01:16,  7.08it/s]
2022-07-08 12:14:29,750 - INFO - tqdm - coref_precision: 0.9014, coref_recall: 0.8262, coref_f1: 0.8617, mention_recall: 0.9836, batch_loss: 34.9536, loss: 15.2219 ||:  84%|########3 | 2391/2851 [05:23<00:59,  7.74it/s]
2022-07-08 12:14:40,214 - INFO - tqdm - coref_precision: 0.9016, coref_recall: 0.8262, coref_f1: 0.8618, mention_recall: 0.9835, batch_loss: 56.5574, loss: 15.1466 ||:  87%|########6 | 2472/2851 [05:33<01:03,  5.95it/s]
2022-07-08 12:14:50,266 - INFO - tqdm - coref_precision: 0.9022, coref_recall: 0.8266, coref_f1: 0.8623, mention_recall: 0.9836, batch_loss: 2.4515, loss: 15.0294 ||:  90%|########9 | 2553/2851 [05:43<00:34,  8.65it/s]
2022-07-08 12:15:00,289 - INFO - tqdm - coref_precision: 0.9026, coref_recall: 0.8265, coref_f1: 0.8624, mention_recall: 0.9830, batch_loss: 0.0151, loss: 14.9192 ||:  92%|#########2| 2635/2851 [05:53<00:29,  7.43it/s]
2022-07-08 12:15:10,480 - INFO - tqdm - coref_precision: 0.9024, coref_recall: 0.8262, coref_f1: 0.8622, mention_recall: 0.9829, batch_loss: 2.7399, loss: 14.9283 ||:  95%|#########4| 2708/2851 [06:03<00:14,  9.85it/s]
2022-07-08 12:15:20,521 - INFO - tqdm - coref_precision: 0.9028, coref_recall: 0.8272, coref_f1: 0.8629, mention_recall: 0.9831, batch_loss: 5.1989, loss: 14.8225 ||:  98%|#########7| 2791/2851 [06:13<00:07,  8.37it/s]
2022-07-08 12:15:26,453 - INFO - tqdm - coref_precision: 0.9030, coref_recall: 0.8271, coref_f1: 0.8629, mention_recall: 0.9830, batch_loss: 0.2653, loss: 14.8196 ||: 100%|#########9| 2838/2851 [06:19<00:01,  8.65it/s]
2022-07-08 12:15:26,628 - INFO - tqdm - coref_precision: 0.9031, coref_recall: 0.8271, coref_f1: 0.8630, mention_recall: 0.9830, batch_loss: 4.6725, loss: 14.8108 ||: 100%|#########9| 2840/2851 [06:20<00:01,  9.52it/s]
2022-07-08 12:15:26,730 - INFO - tqdm - coref_precision: 0.9031, coref_recall: 0.8271, coref_f1: 0.8630, mention_recall: 0.9830, batch_loss: 2.9751, loss: 14.8067 ||: 100%|#########9| 2841/2851 [06:20<00:01,  9.59it/s]
2022-07-08 12:15:26,872 - INFO - tqdm - coref_precision: 0.9031, coref_recall: 0.8271, coref_f1: 0.8630, mention_recall: 0.9830, batch_loss: 11.0348, loss: 14.8054 ||: 100%|#########9| 2842/2851 [06:20<00:01,  8.83it/s]
2022-07-08 12:15:27,009 - INFO - tqdm - coref_precision: 0.9031, coref_recall: 0.8272, coref_f1: 0.8630, mention_recall: 0.9831, batch_loss: 5.0784, loss: 14.8019 ||: 100%|#########9| 2843/2851 [06:20<00:00,  8.39it/s]
2022-07-08 12:15:27,263 - INFO - tqdm - coref_precision: 0.9031, coref_recall: 0.8271, coref_f1: 0.8630, mention_recall: 0.9831, batch_loss: 45.6171, loss: 14.8128 ||: 100%|#########9| 2844/2851 [06:20<00:01,  6.47it/s]
2022-07-08 12:15:27,369 - INFO - tqdm - coref_precision: 0.9031, coref_recall: 0.8271, coref_f1: 0.8630, mention_recall: 0.9831, batch_loss: 3.8255, loss: 14.8089 ||: 100%|#########9| 2845/2851 [06:20<00:00,  7.08it/s]
2022-07-08 12:15:27,492 - INFO - tqdm - coref_precision: 0.9031, coref_recall: 0.8272, coref_f1: 0.8630, mention_recall: 0.9831, batch_loss: 2.4718, loss: 14.8046 ||: 100%|#########9| 2846/2851 [06:20<00:00,  7.35it/s]
2022-07-08 12:15:27,833 - INFO - tqdm - coref_precision: 0.9030, coref_recall: 0.8269, coref_f1: 0.8628, mention_recall: 0.9830, batch_loss: 174.4123, loss: 14.8606 ||: 100%|#########9| 2847/2851 [06:21<00:00,  5.14it/s]
2022-07-08 12:15:27,942 - INFO - tqdm - coref_precision: 0.9030, coref_recall: 0.8269, coref_f1: 0.8628, mention_recall: 0.9830, batch_loss: 0.0430, loss: 14.8554 ||: 100%|#########9| 2848/2851 [06:21<00:00,  5.89it/s]
2022-07-08 12:15:28,066 - INFO - tqdm - coref_precision: 0.9030, coref_recall: 0.8269, coref_f1: 0.8628, mention_recall: 0.9830, batch_loss: 0.0204, loss: 14.8502 ||: 100%|#########9| 2849/2851 [06:21<00:00,  6.39it/s]
2022-07-08 12:15:28,178 - INFO - tqdm - coref_precision: 0.9030, coref_recall: 0.8269, coref_f1: 0.8628, mention_recall: 0.9830, batch_loss: 10.2140, loss: 14.8486 ||: 100%|#########9| 2850/2851 [06:21<00:00,  6.98it/s]
2022-07-08 12:15:28,279 - INFO - tqdm - coref_precision: 0.9030, coref_recall: 0.8269, coref_f1: 0.8628, mention_recall: 0.9830, batch_loss: 4.8308, loss: 14.8451 ||: 100%|##########| 2851/2851 [06:21<00:00,  7.64it/s]
2022-07-08 12:15:28,280 - INFO - tqdm - coref_precision: 0.9030, coref_recall: 0.8269, coref_f1: 0.8628, mention_recall: 0.9830, batch_loss: 4.8308, loss: 14.8451 ||: 100%|##########| 2851/2851 [06:21<00:00,  7.47it/s]
2022-07-08 12:15:29,149 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:15:29,151 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:15:39,206 - INFO - tqdm - coref_precision: 0.7809, coref_recall: 0.7268, coref_f1: 0.7527, mention_recall: 0.9658, batch_loss: 12.9743, loss: 48.6637 ||:  50%|####9     | 197/397 [00:10<00:09, 20.61it/s]
2022-07-08 12:15:49,385 - INFO - tqdm - coref_precision: 0.7863, coref_recall: 0.7300, coref_f1: 0.7569, mention_recall: 0.9663, batch_loss: 22.2445, loss: 44.4891 ||:  93%|#########3| 370/397 [00:20<00:01, 20.56it/s]
2022-07-08 12:15:50,832 - INFO - tqdm - coref_precision: 0.7811, coref_recall: 0.7244, coref_f1: 0.7515, mention_recall: 0.9647, batch_loss: 1.2416, loss: 45.8470 ||: 100%|#########9| 396/397 [00:21<00:00, 22.24it/s]
2022-07-08 12:15:50,870 - INFO - tqdm - coref_precision: 0.7810, coref_recall: 0.7243, coref_f1: 0.7514, mention_recall: 0.9647, batch_loss: 15.0016, loss: 45.7693 ||: 100%|##########| 397/397 [00:21<00:00, 18.28it/s]
2022-07-08 12:15:52,596 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.863  |     0.751
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.903  |     0.781
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.827  |     0.724
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger - loss               |    14.845  |    45.769
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.983  |     0.965
2022-07-08 12:15:53,764 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:15:53,764 - INFO - allennlp.training.trainer - Epoch duration: 0:06:47.188895
2022-07-08 12:15:53,765 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:56:17
2022-07-08 12:15:53,765 - INFO - allennlp.training.trainer - Epoch 9/149
2022-07-08 12:15:53,765 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:15:53,765 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:15:53,766 - INFO - allennlp.training.trainer - Training
2022-07-08 12:15:53,766 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:16:03,889 - INFO - tqdm - coref_precision: 0.9349, coref_recall: 0.8246, coref_f1: 0.8743, mention_recall: 0.9660, batch_loss: 0.0143, loss: 9.6492 ||:   3%|2         | 79/2851 [00:10<06:25,  7.20it/s]
2022-07-08 12:16:13,949 - INFO - tqdm - coref_precision: 0.9294, coref_recall: 0.8415, coref_f1: 0.8822, mention_recall: 0.9761, batch_loss: 23.2120, loss: 10.8806 ||:   6%|5         | 158/2851 [00:20<05:32,  8.09it/s]
2022-07-08 12:16:23,978 - INFO - tqdm - coref_precision: 0.9280, coref_recall: 0.8461, coref_f1: 0.8843, mention_recall: 0.9793, batch_loss: 6.5788, loss: 10.2408 ||:   8%|8         | 241/2851 [00:30<04:04, 10.66it/s]
2022-07-08 12:16:34,006 - INFO - tqdm - coref_precision: 0.9190, coref_recall: 0.8337, coref_f1: 0.8736, mention_recall: 0.9810, batch_loss: 0.1632, loss: 12.4489 ||:  11%|#         | 308/2851 [00:40<04:59,  8.48it/s]
2022-07-08 12:16:44,117 - INFO - tqdm - coref_precision: 0.9221, coref_recall: 0.8379, coref_f1: 0.8774, mention_recall: 0.9813, batch_loss: 10.7859, loss: 12.1016 ||:  14%|#3        | 388/2851 [00:50<05:05,  8.07it/s]
2022-07-08 12:16:54,170 - INFO - tqdm - coref_precision: 0.9228, coref_recall: 0.8384, coref_f1: 0.8781, mention_recall: 0.9815, batch_loss: 7.7770, loss: 12.3854 ||:  16%|#6        | 464/2851 [01:00<04:22,  9.09it/s]
2022-07-08 12:17:04,361 - INFO - tqdm - coref_precision: 0.9223, coref_recall: 0.8434, coref_f1: 0.8806, mention_recall: 0.9821, batch_loss: 4.3075, loss: 12.1642 ||:  19%|#9        | 547/2851 [01:10<05:28,  7.02it/s]
2022-07-08 12:17:14,400 - INFO - tqdm - coref_precision: 0.9177, coref_recall: 0.8375, coref_f1: 0.8754, mention_recall: 0.9824, batch_loss: 407.0723, loss: 13.4471 ||:  22%|##1       | 613/2851 [01:20<10:57,  3.40it/s]
2022-07-08 12:17:24,559 - INFO - tqdm - coref_precision: 0.9167, coref_recall: 0.8357, coref_f1: 0.8739, mention_recall: 0.9826, batch_loss: 12.2078, loss: 13.4033 ||:  24%|##4       | 691/2851 [01:30<05:44,  6.27it/s]
2022-07-08 12:17:34,576 - INFO - tqdm - coref_precision: 0.9166, coref_recall: 0.8365, coref_f1: 0.8743, mention_recall: 0.9829, batch_loss: 3.3598, loss: 12.9884 ||:  27%|##7       | 772/2851 [01:40<03:57,  8.77it/s]
2022-07-08 12:17:44,701 - INFO - tqdm - coref_precision: 0.9178, coref_recall: 0.8396, coref_f1: 0.8765, mention_recall: 0.9834, batch_loss: 37.9249, loss: 12.6006 ||:  30%|##9       | 850/2851 [01:50<06:52,  4.86it/s]
2022-07-08 12:17:54,903 - INFO - tqdm - coref_precision: 0.9169, coref_recall: 0.8402, coref_f1: 0.8764, mention_recall: 0.9835, batch_loss: 25.0993, loss: 12.7150 ||:  33%|###2      | 929/2851 [02:01<04:37,  6.93it/s]
2022-07-08 12:18:05,031 - INFO - tqdm - coref_precision: 0.9160, coref_recall: 0.8388, coref_f1: 0.8752, mention_recall: 0.9836, batch_loss: 0.0000, loss: 12.7786 ||:  35%|###5      | 1008/2851 [02:11<03:09,  9.70it/s]
2022-07-08 12:18:15,248 - INFO - tqdm - coref_precision: 0.9134, coref_recall: 0.8355, coref_f1: 0.8723, mention_recall: 0.9828, batch_loss: 15.8341, loss: 13.4439 ||:  38%|###7      | 1077/2851 [02:21<04:23,  6.74it/s]
2022-07-08 12:18:25,427 - INFO - tqdm - coref_precision: 0.9143, coref_recall: 0.8375, coref_f1: 0.8738, mention_recall: 0.9831, batch_loss: 43.1660, loss: 13.1301 ||:  41%|####      | 1161/2851 [02:31<04:14,  6.65it/s]
2022-07-08 12:18:35,483 - INFO - tqdm - coref_precision: 0.9107, coref_recall: 0.8350, coref_f1: 0.8708, mention_recall: 0.9834, batch_loss: 38.0205, loss: 13.8183 ||:  43%|####2     | 1223/2851 [02:41<03:49,  7.08it/s]
2022-07-08 12:18:45,568 - INFO - tqdm - coref_precision: 0.9105, coref_recall: 0.8332, coref_f1: 0.8697, mention_recall: 0.9832, batch_loss: 0.0647, loss: 13.9582 ||:  45%|####5     | 1293/2851 [02:51<03:39,  7.10it/s]
2022-07-08 12:18:55,774 - INFO - tqdm - coref_precision: 0.9113, coref_recall: 0.8341, coref_f1: 0.8706, mention_recall: 0.9833, batch_loss: 20.8846, loss: 13.7648 ||:  48%|####8     | 1370/2851 [03:02<03:57,  6.24it/s]
2022-07-08 12:19:05,860 - INFO - tqdm - coref_precision: 0.9128, coref_recall: 0.8357, coref_f1: 0.8721, mention_recall: 0.9835, batch_loss: 2.5552, loss: 13.4974 ||:  51%|#####     | 1449/2851 [03:12<02:46,  8.41it/s]
2022-07-08 12:19:15,874 - INFO - tqdm - coref_precision: 0.9137, coref_recall: 0.8367, coref_f1: 0.8730, mention_recall: 0.9837, batch_loss: 49.2511, loss: 13.2685 ||:  54%|#####3    | 1533/2851 [03:22<02:59,  7.34it/s]
2022-07-08 12:19:25,956 - INFO - tqdm - coref_precision: 0.9141, coref_recall: 0.8372, coref_f1: 0.8735, mention_recall: 0.9836, batch_loss: 3.2552, loss: 13.1876 ||:  56%|#####6    | 1608/2851 [03:32<03:07,  6.61it/s]
2022-07-08 12:19:35,974 - INFO - tqdm - coref_precision: 0.9145, coref_recall: 0.8378, coref_f1: 0.8740, mention_recall: 0.9836, batch_loss: 8.8294, loss: 13.0928 ||:  59%|#####9    | 1687/2851 [03:42<02:31,  7.71it/s]
2022-07-08 12:19:46,213 - INFO - tqdm - coref_precision: 0.9137, coref_recall: 0.8374, coref_f1: 0.8734, mention_recall: 0.9837, batch_loss: 42.2632, loss: 13.1608 ||:  62%|######1   | 1757/2851 [03:52<03:48,  4.79it/s]
2022-07-08 12:19:56,215 - INFO - tqdm - coref_precision: 0.9131, coref_recall: 0.8365, coref_f1: 0.8727, mention_recall: 0.9836, batch_loss: 59.1956, loss: 13.3655 ||:  64%|######4   | 1827/2851 [04:02<03:11,  5.34it/s]
2022-07-08 12:20:06,387 - INFO - tqdm - coref_precision: 0.9130, coref_recall: 0.8371, coref_f1: 0.8730, mention_recall: 0.9837, batch_loss: 1.6860, loss: 13.3475 ||:  67%|######6   | 1906/2851 [04:12<02:05,  7.55it/s]
2022-07-08 12:20:16,421 - INFO - tqdm - coref_precision: 0.9131, coref_recall: 0.8372, coref_f1: 0.8731, mention_recall: 0.9838, batch_loss: 6.8897, loss: 13.2922 ||:  70%|######9   | 1987/2851 [04:22<01:39,  8.72it/s]
2022-07-08 12:20:26,431 - INFO - tqdm - coref_precision: 0.9132, coref_recall: 0.8371, coref_f1: 0.8731, mention_recall: 0.9838, batch_loss: 4.4200, loss: 13.4154 ||:  72%|#######2  | 2062/2851 [04:32<01:40,  7.81it/s]
2022-07-08 12:20:36,526 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8355, coref_f1: 0.8717, mention_recall: 0.9836, batch_loss: 20.2076, loss: 13.5546 ||:  74%|#######4  | 2118/2851 [04:42<09:49,  1.24it/s]
2022-07-08 12:20:46,591 - INFO - tqdm - coref_precision: 0.9128, coref_recall: 0.8364, coref_f1: 0.8725, mention_recall: 0.9837, batch_loss: 9.2299, loss: 13.4816 ||:  77%|#######6  | 2195/2851 [04:52<01:17,  8.41it/s]
2022-07-08 12:20:56,633 - INFO - tqdm - coref_precision: 0.9137, coref_recall: 0.8373, coref_f1: 0.8734, mention_recall: 0.9837, batch_loss: 0.9146, loss: 13.3165 ||:  80%|#######9  | 2278/2851 [05:02<01:34,  6.08it/s]
2022-07-08 12:21:06,759 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8332, coref_f1: 0.8706, mention_recall: 0.9832, batch_loss: 3.0437, loss: 13.6396 ||:  82%|########1 | 2334/2851 [05:12<00:51, 10.01it/s]
2022-07-08 12:21:16,918 - INFO - tqdm - coref_precision: 0.9129, coref_recall: 0.8341, coref_f1: 0.8713, mention_recall: 0.9833, batch_loss: 70.3357, loss: 13.5344 ||:  85%|########4 | 2412/2851 [05:23<01:13,  5.96it/s]
2022-07-08 12:21:26,929 - INFO - tqdm - coref_precision: 0.9132, coref_recall: 0.8346, coref_f1: 0.8717, mention_recall: 0.9833, batch_loss: 0.0005, loss: 13.4379 ||:  87%|########7 | 2493/2851 [05:33<00:40,  8.84it/s]
2022-07-08 12:21:37,015 - INFO - tqdm - coref_precision: 0.9112, coref_recall: 0.8332, coref_f1: 0.8700, mention_recall: 0.9833, batch_loss: 1.5365, loss: 13.8316 ||:  89%|########9 | 2549/2851 [05:43<00:40,  7.44it/s]
2022-07-08 12:21:47,071 - INFO - tqdm - coref_precision: 0.9116, coref_recall: 0.8341, coref_f1: 0.8707, mention_recall: 0.9833, batch_loss: 0.0540, loss: 13.6975 ||:  92%|#########2| 2635/2851 [05:53<00:26,  8.22it/s]
2022-07-08 12:21:57,124 - INFO - tqdm - coref_precision: 0.9117, coref_recall: 0.8336, coref_f1: 0.8705, mention_recall: 0.9833, batch_loss: 10.8766, loss: 13.6730 ||:  95%|#########5| 2710/2851 [06:03<00:23,  6.12it/s]
2022-07-08 12:22:07,224 - INFO - tqdm - coref_precision: 0.9119, coref_recall: 0.8339, coref_f1: 0.8707, mention_recall: 0.9833, batch_loss: 0.4448, loss: 13.6318 ||:  98%|#########7| 2787/2851 [06:13<00:06,  9.45it/s]
2022-07-08 12:22:13,107 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8345, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 4.4345, loss: 13.5332 ||: 100%|#########9| 2837/2851 [06:19<00:01,  7.15it/s]
2022-07-08 12:22:13,208 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8344, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 17.8451, loss: 13.5347 ||: 100%|#########9| 2838/2851 [06:19<00:01,  7.77it/s]
2022-07-08 12:22:13,344 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8344, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 31.4489, loss: 13.5410 ||: 100%|#########9| 2839/2851 [06:19<00:01,  7.64it/s]
2022-07-08 12:22:13,447 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8344, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 0.0504, loss: 13.5362 ||: 100%|#########9| 2840/2851 [06:19<00:01,  8.13it/s]
2022-07-08 12:22:13,651 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8344, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 27.4992, loss: 13.5412 ||: 100%|#########9| 2841/2851 [06:19<00:01,  6.81it/s]
2022-07-08 12:22:13,836 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8344, coref_f1: 0.8711, mention_recall: 0.9833, batch_loss: 22.7039, loss: 13.5444 ||: 100%|#########9| 2842/2851 [06:20<00:01,  6.34it/s]
2022-07-08 12:22:14,020 - INFO - tqdm - coref_precision: 0.9123, coref_recall: 0.8344, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 11.1731, loss: 13.5435 ||: 100%|#########9| 2843/2851 [06:20<00:01,  6.04it/s]
2022-07-08 12:22:14,175 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8345, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 6.5763, loss: 13.5411 ||: 100%|#########9| 2844/2851 [06:20<00:01,  6.15it/s]
2022-07-08 12:22:14,493 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8345, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 27.3776, loss: 13.5460 ||: 100%|#########9| 2845/2851 [06:20<00:01,  4.79it/s]
2022-07-08 12:22:14,669 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8345, coref_f1: 0.8713, mention_recall: 0.9833, batch_loss: 0.0469, loss: 13.5365 ||: 100%|#########9| 2847/2851 [06:20<00:00,  6.53it/s]
2022-07-08 12:22:14,795 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8345, coref_f1: 0.8713, mention_recall: 0.9833, batch_loss: 1.4798, loss: 13.5322 ||: 100%|#########9| 2848/2851 [06:21<00:00,  6.83it/s]
2022-07-08 12:22:14,908 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8345, coref_f1: 0.8713, mention_recall: 0.9833, batch_loss: 16.1737, loss: 13.5332 ||: 100%|#########9| 2849/2851 [06:21<00:00,  7.26it/s]
2022-07-08 12:22:15,009 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8345, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 4.4396, loss: 13.5300 ||: 100%|#########9| 2850/2851 [06:21<00:00,  7.82it/s]
2022-07-08 12:22:15,097 - INFO - tqdm - coref_precision: 0.9124, coref_recall: 0.8345, coref_f1: 0.8712, mention_recall: 0.9833, batch_loss: 6.3858, loss: 13.5275 ||: 100%|##########| 2851/2851 [06:21<00:00,  7.48it/s]
2022-07-08 12:22:15,978 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:22:15,979 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:22:26,431 - INFO - tqdm - coref_precision: 0.7751, coref_recall: 0.7104, coref_f1: 0.7408, mention_recall: 0.9558, batch_loss: 60.5854, loss: 48.2058 ||:  51%|#####     | 201/397 [00:10<00:20,  9.75it/s]
2022-07-08 12:22:35,385 - INFO - tqdm - coref_precision: 0.7759, coref_recall: 0.7190, coref_f1: 0.7459, mention_recall: 0.9578, batch_loss: 87.9609, loss: 45.7422 ||: 100%|#########9| 396/397 [00:19<00:00, 20.80it/s]
2022-07-08 12:22:35,446 - INFO - tqdm - coref_precision: 0.7762, coref_recall: 0.7191, coref_f1: 0.7461, mention_recall: 0.9578, batch_loss: 59.0927, loss: 45.7759 ||: 100%|##########| 397/397 [00:19<00:00, 20.39it/s]
2022-07-08 12:22:37,344 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:22:37,344 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.871  |     0.746
2022-07-08 12:22:37,345 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.912  |     0.776
2022-07-08 12:22:37,345 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.834  |     0.719
2022-07-08 12:22:37,345 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:22:37,345 - INFO - allennlp.training.callbacks.console_logger - loss               |    13.527  |    45.776
2022-07-08 12:22:37,345 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.983  |     0.958
2022-07-08 12:22:37,345 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:22:37,345 - INFO - allennlp.training.trainer - Epoch duration: 0:06:43.580262
2022-07-08 12:22:37,345 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:48:43
2022-07-08 12:22:37,345 - INFO - allennlp.training.trainer - Epoch 10/149
2022-07-08 12:22:37,345 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:22:37,345 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:22:37,346 - INFO - allennlp.training.trainer - Training
2022-07-08 12:22:37,347 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:22:47,377 - INFO - tqdm - coref_precision: 0.9255, coref_recall: 0.8574, coref_f1: 0.8898, mention_recall: 0.9877, batch_loss: 21.7377, loss: 11.3965 ||:   3%|2         | 76/2851 [00:10<06:10,  7.50it/s]
2022-07-08 12:22:57,425 - INFO - tqdm - coref_precision: 0.9318, coref_recall: 0.8558, coref_f1: 0.8917, mention_recall: 0.9856, batch_loss: 0.0032, loss: 10.4294 ||:   5%|5         | 153/2851 [00:20<05:13,  8.62it/s]
2022-07-08 12:23:07,544 - INFO - tqdm - coref_precision: 0.9063, coref_recall: 0.8399, coref_f1: 0.8714, mention_recall: 0.9835, batch_loss: 33.7793, loss: 15.4802 ||:   7%|7         | 209/2851 [00:30<09:14,  4.77it/s]
2022-07-08 12:23:17,856 - INFO - tqdm - coref_precision: 0.9057, coref_recall: 0.8329, coref_f1: 0.8674, mention_recall: 0.9830, batch_loss: 85.0171, loss: 15.4485 ||:  10%|9         | 278/2851 [00:40<08:32,  5.02it/s]
2022-07-08 12:23:28,058 - INFO - tqdm - coref_precision: 0.9081, coref_recall: 0.8350, coref_f1: 0.8696, mention_recall: 0.9828, batch_loss: 37.4860, loss: 14.0577 ||:  13%|#2        | 360/2851 [00:50<04:47,  8.68it/s]
2022-07-08 12:23:38,160 - INFO - tqdm - coref_precision: 0.9150, coref_recall: 0.8390, coref_f1: 0.8747, mention_recall: 0.9801, batch_loss: 4.9920, loss: 12.9443 ||:  16%|#5        | 444/2851 [01:00<05:20,  7.50it/s]
2022-07-08 12:23:48,169 - INFO - tqdm - coref_precision: 0.9116, coref_recall: 0.8306, coref_f1: 0.8687, mention_recall: 0.9798, batch_loss: 8.6815, loss: 14.3801 ||:  18%|#7        | 512/2851 [01:10<06:02,  6.46it/s]
2022-07-08 12:23:58,346 - INFO - tqdm - coref_precision: 0.9152, coref_recall: 0.8358, coref_f1: 0.8732, mention_recall: 0.9805, batch_loss: 55.1933, loss: 13.5309 ||:  21%|##        | 594/2851 [01:20<05:52,  6.41it/s]
2022-07-08 12:24:08,361 - INFO - tqdm - coref_precision: 0.9175, coref_recall: 0.8394, coref_f1: 0.8762, mention_recall: 0.9805, batch_loss: 0.0057, loss: 13.0882 ||:  24%|##3       | 678/2851 [01:31<03:44,  9.68it/s]
2022-07-08 12:24:18,484 - INFO - tqdm - coref_precision: 0.9170, coref_recall: 0.8399, coref_f1: 0.8762, mention_recall: 0.9811, batch_loss: 2.7807, loss: 13.0959 ||:  27%|##6       | 757/2851 [01:41<04:03,  8.60it/s]
2022-07-08 12:24:28,516 - INFO - tqdm - coref_precision: 0.9181, coref_recall: 0.8416, coref_f1: 0.8777, mention_recall: 0.9819, batch_loss: 26.8107, loss: 12.9736 ||:  29%|##9       | 829/2851 [01:51<04:22,  7.70it/s]
2022-07-08 12:24:38,732 - INFO - tqdm - coref_precision: 0.9199, coref_recall: 0.8438, coref_f1: 0.8797, mention_recall: 0.9825, batch_loss: 14.2409, loss: 12.5198 ||:  32%|###1      | 912/2851 [02:01<03:43,  8.69it/s]
2022-07-08 12:24:49,888 - INFO - tqdm - coref_precision: 0.9178, coref_recall: 0.8398, coref_f1: 0.8766, mention_recall: 0.9825, batch_loss: 399.5273, loss: 12.9846 ||:  34%|###3      | 968/2851 [02:12<30:56,  1.01it/s]
2022-07-08 12:24:59,899 - INFO - tqdm - coref_precision: 0.9164, coref_recall: 0.8379, coref_f1: 0.8749, mention_recall: 0.9830, batch_loss: 194.6254, loss: 13.1504 ||:  36%|###6      | 1040/2851 [02:22<05:52,  5.14it/s]
2022-07-08 12:25:09,953 - INFO - tqdm - coref_precision: 0.9157, coref_recall: 0.8378, coref_f1: 0.8746, mention_recall: 0.9834, batch_loss: 3.5650, loss: 13.1732 ||:  39%|###9      | 1113/2851 [02:32<03:23,  8.54it/s]
2022-07-08 12:25:20,009 - INFO - tqdm - coref_precision: 0.9168, coref_recall: 0.8392, coref_f1: 0.8758, mention_recall: 0.9837, batch_loss: 1.9184, loss: 12.9389 ||:  42%|####1     | 1191/2851 [02:42<04:31,  6.11it/s]
2022-07-08 12:25:30,132 - INFO - tqdm - coref_precision: 0.9169, coref_recall: 0.8401, coref_f1: 0.8764, mention_recall: 0.9838, batch_loss: 2.7202, loss: 12.8356 ||:  45%|####4     | 1273/2851 [02:52<03:06,  8.44it/s]
2022-07-08 12:25:40,265 - INFO - tqdm - coref_precision: 0.9174, coref_recall: 0.8413, coref_f1: 0.8772, mention_recall: 0.9835, batch_loss: 11.2120, loss: 12.6515 ||:  47%|####7     | 1348/2851 [03:02<03:04,  8.13it/s]
2022-07-08 12:25:50,325 - INFO - tqdm - coref_precision: 0.9170, coref_recall: 0.8409, coref_f1: 0.8768, mention_recall: 0.9837, batch_loss: 1.0290, loss: 12.6748 ||:  50%|####9     | 1423/2851 [03:12<03:12,  7.42it/s]
2022-07-08 12:26:00,446 - INFO - tqdm - coref_precision: 0.9182, coref_recall: 0.8433, coref_f1: 0.8787, mention_recall: 0.9841, batch_loss: 9.8996, loss: 12.3937 ||:  53%|#####2    | 1506/2851 [03:23<02:48,  7.96it/s]
2022-07-08 12:26:10,548 - INFO - tqdm - coref_precision: 0.9184, coref_recall: 0.8436, coref_f1: 0.8790, mention_recall: 0.9841, batch_loss: 10.3611, loss: 12.3506 ||:  56%|#####5    | 1585/2851 [03:33<03:15,  6.48it/s]
2022-07-08 12:26:20,626 - INFO - tqdm - coref_precision: 0.9193, coref_recall: 0.8452, coref_f1: 0.8802, mention_recall: 0.9842, batch_loss: 22.9529, loss: 12.1417 ||:  58%|#####8    | 1666/2851 [03:43<02:29,  7.94it/s]
2022-07-08 12:26:30,681 - INFO - tqdm - coref_precision: 0.9188, coref_recall: 0.8438, coref_f1: 0.8793, mention_recall: 0.9842, batch_loss: 0.5106, loss: 12.3576 ||:  61%|######1   | 1740/2851 [03:53<02:11,  8.45it/s]
2022-07-08 12:26:40,846 - INFO - tqdm - coref_precision: 0.9190, coref_recall: 0.8445, coref_f1: 0.8798, mention_recall: 0.9840, batch_loss: 20.7885, loss: 12.3082 ||:  64%|######3   | 1821/2851 [04:03<01:56,  8.86it/s]
2022-07-08 12:26:50,949 - INFO - tqdm - coref_precision: 0.9193, coref_recall: 0.8431, coref_f1: 0.8791, mention_recall: 0.9837, batch_loss: 27.5780, loss: 12.2212 ||:  67%|######6   | 1900/2851 [04:13<02:04,  7.66it/s]
2022-07-08 12:27:01,025 - INFO - tqdm - coref_precision: 0.9191, coref_recall: 0.8425, coref_f1: 0.8787, mention_recall: 0.9837, batch_loss: 5.3545, loss: 12.2999 ||:  69%|######9   | 1974/2851 [04:23<01:36,  9.07it/s]
2022-07-08 12:27:11,098 - INFO - tqdm - coref_precision: 0.9186, coref_recall: 0.8422, coref_f1: 0.8783, mention_recall: 0.9837, batch_loss: 0.0644, loss: 12.4203 ||:  72%|#######1  | 2046/2851 [04:33<01:35,  8.39it/s]
2022-07-08 12:27:21,332 - INFO - tqdm - coref_precision: 0.9188, coref_recall: 0.8421, coref_f1: 0.8783, mention_recall: 0.9837, batch_loss: 24.9545, loss: 12.3267 ||:  75%|#######4  | 2133/2851 [04:43<01:41,  7.08it/s]
2022-07-08 12:27:31,406 - INFO - tqdm - coref_precision: 0.9192, coref_recall: 0.8413, coref_f1: 0.8780, mention_recall: 0.9838, batch_loss: 14.6121, loss: 12.3236 ||:  78%|#######7  | 2210/2851 [04:54<01:40,  6.39it/s]
2022-07-08 12:27:41,568 - INFO - tqdm - coref_precision: 0.9190, coref_recall: 0.8410, coref_f1: 0.8778, mention_recall: 0.9837, batch_loss: 48.5248, loss: 12.3540 ||:  80%|########  | 2281/2851 [05:04<01:16,  7.46it/s]
2022-07-08 12:27:52,160 - INFO - tqdm - coref_precision: 0.9189, coref_recall: 0.8416, coref_f1: 0.8781, mention_recall: 0.9838, batch_loss: 185.4150, loss: 12.2766 ||:  83%|########2 | 2364/2851 [05:14<02:14,  3.61it/s]
2022-07-08 12:28:02,366 - INFO - tqdm - coref_precision: 0.9180, coref_recall: 0.8402, coref_f1: 0.8769, mention_recall: 0.9837, batch_loss: 0.0221, loss: 12.3971 ||:  86%|########5 | 2440/2851 [05:25<00:47,  8.67it/s]
2022-07-08 12:28:12,393 - INFO - tqdm - coref_precision: 0.9187, coref_recall: 0.8411, coref_f1: 0.8777, mention_recall: 0.9837, batch_loss: 19.8333, loss: 12.2531 ||:  88%|########8 | 2522/2851 [05:35<00:43,  7.62it/s]
2022-07-08 12:28:22,514 - INFO - tqdm - coref_precision: 0.9187, coref_recall: 0.8411, coref_f1: 0.8777, mention_recall: 0.9837, batch_loss: 6.9213, loss: 12.2615 ||:  91%|#########1| 2595/2851 [05:45<00:29,  8.56it/s]
2022-07-08 12:28:32,515 - INFO - tqdm - coref_precision: 0.9191, coref_recall: 0.8419, coref_f1: 0.8783, mention_recall: 0.9838, batch_loss: 1.1601, loss: 12.1486 ||:  94%|#########3| 2679/2851 [05:55<00:19,  8.64it/s]
2022-07-08 12:28:42,689 - INFO - tqdm - coref_precision: 0.9188, coref_recall: 0.8420, coref_f1: 0.8783, mention_recall: 0.9838, batch_loss: 2.2313, loss: 12.2052 ||:  97%|#########6| 2753/2851 [06:05<00:11,  8.79it/s]
2022-07-08 12:28:52,748 - INFO - tqdm - coref_precision: 0.9186, coref_recall: 0.8424, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 0.1494, loss: 12.2087 ||:  99%|#########9| 2829/2851 [06:15<00:02,  9.61it/s]
2022-07-08 12:28:53,963 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8424, coref_f1: 0.8783, mention_recall: 0.9839, batch_loss: 9.2247, loss: 12.2248 ||: 100%|#########9| 2837/2851 [06:16<00:01,  7.18it/s]
2022-07-08 12:28:54,080 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8424, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 0.5604, loss: 12.2207 ||: 100%|#########9| 2838/2851 [06:16<00:01,  7.48it/s]
2022-07-08 12:28:54,195 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8424, coref_f1: 0.8783, mention_recall: 0.9839, batch_loss: 24.0414, loss: 12.2248 ||: 100%|#########9| 2839/2851 [06:16<00:01,  7.78it/s]
2022-07-08 12:28:54,311 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8424, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 1.6552, loss: 12.2211 ||: 100%|#########9| 2840/2851 [06:16<00:01,  7.99it/s]
2022-07-08 12:28:54,518 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 5.2141, loss: 12.2144 ||: 100%|#########9| 2842/2851 [06:17<00:01,  8.66it/s]
2022-07-08 12:28:54,619 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 2.3377, loss: 12.2109 ||: 100%|#########9| 2843/2851 [06:17<00:00,  8.92it/s]
2022-07-08 12:28:54,757 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 21.7635, loss: 12.2142 ||: 100%|#########9| 2844/2851 [06:17<00:00,  8.42it/s]
2022-07-08 12:28:54,921 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 24.0904, loss: 12.2184 ||: 100%|#########9| 2845/2851 [06:17<00:00,  7.65it/s]
2022-07-08 12:28:55,085 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 3.8012, loss: 12.2113 ||: 100%|#########9| 2847/2851 [06:17<00:00,  9.12it/s]
2022-07-08 12:28:55,261 - INFO - tqdm - coref_precision: 0.9186, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 1.0372, loss: 12.2031 ||: 100%|#########9| 2849/2851 [06:17<00:00,  9.86it/s]
2022-07-08 12:28:55,370 - INFO - tqdm - coref_precision: 0.9186, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 5.0559, loss: 12.2005 ||: 100%|#########9| 2850/2851 [06:18<00:00,  9.70it/s]
2022-07-08 12:28:55,633 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 23.6419, loss: 12.2046 ||: 100%|##########| 2851/2851 [06:18<00:00,  7.12it/s]
2022-07-08 12:28:55,634 - INFO - tqdm - coref_precision: 0.9185, coref_recall: 0.8425, coref_f1: 0.8784, mention_recall: 0.9839, batch_loss: 23.6419, loss: 12.2046 ||: 100%|##########| 2851/2851 [06:18<00:00,  7.54it/s]
2022-07-08 12:28:56,507 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:28:56,508 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:29:06,509 - INFO - tqdm - coref_precision: 0.7976, coref_recall: 0.7409, coref_f1: 0.7675, mention_recall: 0.9718, batch_loss: 38.0073, loss: 50.9484 ||:  54%|#####4    | 216/397 [00:10<00:09, 18.39it/s]
2022-07-08 12:29:17,768 - INFO - tqdm - coref_precision: 0.7808, coref_recall: 0.7260, coref_f1: 0.7520, mention_recall: 0.9681, batch_loss: 560.5294, loss: 54.6347 ||:  98%|#########8| 390/397 [00:21<00:02,  2.95it/s]
2022-07-08 12:29:18,220 - INFO - tqdm - coref_precision: 0.7775, coref_recall: 0.7218, coref_f1: 0.7482, mention_recall: 0.9669, batch_loss: 0.0000, loss: 55.5559 ||: 100%|##########| 397/397 [00:21<00:00, 18.29it/s]
2022-07-08 12:29:20,215 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:29:20,216 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.878  |     0.748
2022-07-08 12:29:20,216 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.919  |     0.778
2022-07-08 12:29:20,216 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.843  |     0.722
2022-07-08 12:29:20,216 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:29:20,216 - INFO - allennlp.training.callbacks.console_logger - loss               |    12.205  |    55.556
2022-07-08 12:29:20,216 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.984  |     0.967
2022-07-08 12:29:20,216 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:29:20,216 - INFO - allennlp.training.trainer - Epoch duration: 0:06:42.871067
2022-07-08 12:29:20,216 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:41:09
2022-07-08 12:29:20,216 - INFO - allennlp.training.trainer - Epoch 11/149
2022-07-08 12:29:20,218 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:29:20,218 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:29:20,219 - INFO - allennlp.training.trainer - Training
2022-07-08 12:29:20,219 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:29:30,355 - INFO - tqdm - coref_precision: 0.9319, coref_recall: 0.8620, coref_f1: 0.8948, mention_recall: 0.9852, batch_loss: 0.0254, loss: 9.0039 ||:   3%|2         | 76/2851 [00:10<05:12,  8.88it/s]
2022-07-08 12:29:40,778 - INFO - tqdm - coref_precision: 0.9346, coref_recall: 0.8684, coref_f1: 0.8996, mention_recall: 0.9852, batch_loss: 44.9405, loss: 9.0593 ||:   6%|5         | 157/2851 [00:20<10:36,  4.23it/s]
2022-07-08 12:29:50,872 - INFO - tqdm - coref_precision: 0.9246, coref_recall: 0.8521, coref_f1: 0.8865, mention_recall: 0.9843, batch_loss: 9.4969, loss: 11.1633 ||:   8%|7         | 217/2851 [00:30<06:40,  6.57it/s]
2022-07-08 12:30:01,094 - INFO - tqdm - coref_precision: 0.9252, coref_recall: 0.8532, coref_f1: 0.8873, mention_recall: 0.9842, batch_loss: 8.5019, loss: 11.0985 ||:  10%|#         | 292/2851 [00:40<05:08,  8.29it/s]
2022-07-08 12:30:11,123 - INFO - tqdm - coref_precision: 0.9268, coref_recall: 0.8540, coref_f1: 0.8883, mention_recall: 0.9841, batch_loss: 24.9912, loss: 10.4970 ||:  13%|#3        | 371/2851 [00:50<06:00,  6.88it/s]
2022-07-08 12:30:21,243 - INFO - tqdm - coref_precision: 0.9280, coref_recall: 0.8551, coref_f1: 0.8895, mention_recall: 0.9842, batch_loss: 65.2950, loss: 10.1521 ||:  16%|#5        | 456/2851 [01:01<05:09,  7.73it/s]
2022-07-08 12:30:31,386 - INFO - tqdm - coref_precision: 0.9284, coref_recall: 0.8554, coref_f1: 0.8899, mention_recall: 0.9842, batch_loss: 0.0068, loss: 10.0919 ||:  19%|#8        | 532/2851 [01:11<05:32,  6.97it/s]
2022-07-08 12:30:41,538 - INFO - tqdm - coref_precision: 0.9254, coref_recall: 0.8498, coref_f1: 0.8855, mention_recall: 0.9830, batch_loss: 8.3731, loss: 10.6881 ||:  21%|##        | 598/2851 [01:21<04:38,  8.10it/s]
2022-07-08 12:30:51,603 - INFO - tqdm - coref_precision: 0.9228, coref_recall: 0.8458, coref_f1: 0.8822, mention_recall: 0.9832, batch_loss: 11.0948, loss: 11.6892 ||:  23%|##3       | 667/2851 [01:31<04:36,  7.89it/s]
2022-07-08 12:31:01,776 - INFO - tqdm - coref_precision: 0.9228, coref_recall: 0.8454, coref_f1: 0.8820, mention_recall: 0.9834, batch_loss: 0.0062, loss: 11.7811 ||:  26%|##5       | 741/2851 [01:41<05:00,  7.03it/s]
2022-07-08 12:31:11,776 - INFO - tqdm - coref_precision: 0.9260, coref_recall: 0.8492, coref_f1: 0.8855, mention_recall: 0.9833, batch_loss: 41.5770, loss: 11.1775 ||:  29%|##8       | 825/2851 [01:51<04:19,  7.81it/s]
2022-07-08 12:31:21,906 - INFO - tqdm - coref_precision: 0.9268, coref_recall: 0.8501, coref_f1: 0.8863, mention_recall: 0.9836, batch_loss: 0.0045, loss: 10.9430 ||:  32%|###1      | 907/2851 [02:01<04:26,  7.31it/s]
2022-07-08 12:31:31,996 - INFO - tqdm - coref_precision: 0.9232, coref_recall: 0.8437, coref_f1: 0.8813, mention_recall: 0.9826, batch_loss: 4.9170, loss: 11.8729 ||:  34%|###4      | 972/2851 [02:11<04:01,  7.77it/s]
2022-07-08 12:31:42,010 - INFO - tqdm - coref_precision: 0.9240, coref_recall: 0.8465, coref_f1: 0.8832, mention_recall: 0.9831, batch_loss: 0.1803, loss: 11.7018 ||:  37%|###6      | 1051/2851 [02:21<04:02,  7.41it/s]
2022-07-08 12:31:52,303 - INFO - tqdm - coref_precision: 0.9243, coref_recall: 0.8470, coref_f1: 0.8836, mention_recall: 0.9830, batch_loss: 41.1194, loss: 11.6109 ||:  40%|###9      | 1131/2851 [02:32<04:04,  7.03it/s]
2022-07-08 12:32:02,458 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8443, coref_f1: 0.8814, mention_recall: 0.9826, batch_loss: 1.6382, loss: 11.9497 ||:  42%|####1     | 1197/2851 [02:42<02:48,  9.79it/s]
2022-07-08 12:32:12,552 - INFO - tqdm - coref_precision: 0.9235, coref_recall: 0.8463, coref_f1: 0.8828, mention_recall: 0.9827, batch_loss: 12.5915, loss: 11.7488 ||:  45%|####4     | 1279/2851 [02:52<03:09,  8.28it/s]
2022-07-08 12:32:22,611 - INFO - tqdm - coref_precision: 0.9236, coref_recall: 0.8466, coref_f1: 0.8830, mention_recall: 0.9828, batch_loss: 0.0199, loss: 11.5881 ||:  48%|####7     | 1360/2851 [03:02<03:05,  8.04it/s]
2022-07-08 12:32:32,749 - INFO - tqdm - coref_precision: 0.9240, coref_recall: 0.8468, coref_f1: 0.8833, mention_recall: 0.9828, batch_loss: 18.2950, loss: 11.5287 ||:  50%|#####     | 1439/2851 [03:12<03:00,  7.83it/s]
2022-07-08 12:32:42,772 - INFO - tqdm - coref_precision: 0.9247, coref_recall: 0.8477, coref_f1: 0.8841, mention_recall: 0.9828, batch_loss: 5.3109, loss: 11.3909 ||:  53%|#####3    | 1520/2851 [03:22<02:58,  7.46it/s]
2022-07-08 12:32:52,835 - INFO - tqdm - coref_precision: 0.9254, coref_recall: 0.8491, coref_f1: 0.8852, mention_recall: 0.9830, batch_loss: 0.7105, loss: 11.2849 ||:  56%|#####6    | 1597/2851 [03:32<03:44,  5.60it/s]
2022-07-08 12:33:02,912 - INFO - tqdm - coref_precision: 0.9257, coref_recall: 0.8498, coref_f1: 0.8856, mention_recall: 0.9828, batch_loss: 0.0844, loss: 11.1955 ||:  59%|#####8    | 1678/2851 [03:42<01:59,  9.79it/s]
2022-07-08 12:33:13,061 - INFO - tqdm - coref_precision: 0.9244, coref_recall: 0.8477, coref_f1: 0.8839, mention_recall: 0.9826, batch_loss: 21.3097, loss: 11.4671 ||:  61%|######1   | 1743/2851 [03:52<02:16,  8.11it/s]
2022-07-08 12:33:23,894 - INFO - tqdm - coref_precision: 0.9217, coref_recall: 0.8464, coref_f1: 0.8820, mention_recall: 0.9825, batch_loss: 237.2546, loss: 12.0082 ||:  63%|######3   | 1806/2851 [04:03<05:37,  3.09it/s]
2022-07-08 12:33:33,960 - INFO - tqdm - coref_precision: 0.9225, coref_recall: 0.8474, coref_f1: 0.8829, mention_recall: 0.9823, batch_loss: 0.0203, loss: 11.8078 ||:  66%|######6   | 1892/2851 [04:13<02:12,  7.26it/s]
2022-07-08 12:33:44,049 - INFO - tqdm - coref_precision: 0.9223, coref_recall: 0.8473, coref_f1: 0.8827, mention_recall: 0.9823, batch_loss: 0.8336, loss: 11.8072 ||:  69%|######9   | 1972/2851 [04:23<01:42,  8.57it/s]
2022-07-08 12:33:54,504 - INFO - tqdm - coref_precision: 0.9230, coref_recall: 0.8477, coref_f1: 0.8833, mention_recall: 0.9825, batch_loss: 5.8484, loss: 11.6990 ||:  71%|#######1  | 2038/2851 [04:34<08:56,  1.51it/s]
2022-07-08 12:34:04,566 - INFO - tqdm - coref_precision: 0.9238, coref_recall: 0.8489, coref_f1: 0.8843, mention_recall: 0.9826, batch_loss: 0.0083, loss: 11.5616 ||:  74%|#######4  | 2123/2851 [04:44<01:23,  8.68it/s]
2022-07-08 12:34:14,668 - INFO - tqdm - coref_precision: 0.9228, coref_recall: 0.8474, coref_f1: 0.8830, mention_recall: 0.9823, batch_loss: 0.8263, loss: 11.6976 ||:  77%|#######7  | 2196/2851 [04:54<01:20,  8.18it/s]
2022-07-08 12:34:24,669 - INFO - tqdm - coref_precision: 0.9219, coref_recall: 0.8462, coref_f1: 0.8819, mention_recall: 0.9823, batch_loss: 17.6580, loss: 11.8466 ||:  79%|#######9  | 2264/2851 [05:04<01:22,  7.12it/s]
2022-07-08 12:34:34,845 - INFO - tqdm - coref_precision: 0.9224, coref_recall: 0.8469, coref_f1: 0.8825, mention_recall: 0.9824, batch_loss: 45.1483, loss: 11.6672 ||:  82%|########2 | 2352/2851 [05:14<01:09,  7.22it/s]
2022-07-08 12:34:45,017 - INFO - tqdm - coref_precision: 0.9220, coref_recall: 0.8471, coref_f1: 0.8824, mention_recall: 0.9824, batch_loss: 1.8213, loss: 11.6669 ||:  85%|########5 | 2430/2851 [05:24<00:54,  7.72it/s]
2022-07-08 12:34:55,060 - INFO - tqdm - coref_precision: 0.9222, coref_recall: 0.8477, coref_f1: 0.8829, mention_recall: 0.9825, batch_loss: 1.0518, loss: 11.5938 ||:  88%|########7 | 2507/2851 [05:34<00:49,  6.91it/s]
2022-07-08 12:35:05,160 - INFO - tqdm - coref_precision: 0.9218, coref_recall: 0.8476, coref_f1: 0.8827, mention_recall: 0.9826, batch_loss: 118.2432, loss: 11.5740 ||:  91%|######### | 2587/2851 [05:44<00:36,  7.27it/s]
2022-07-08 12:35:15,199 - INFO - tqdm - coref_precision: 0.9220, coref_recall: 0.8480, coref_f1: 0.8829, mention_recall: 0.9829, batch_loss: 3.7041, loss: 11.5416 ||:  94%|#########3| 2670/2851 [05:54<00:20,  8.63it/s]
2022-07-08 12:35:25,255 - INFO - tqdm - coref_precision: 0.9222, coref_recall: 0.8474, coref_f1: 0.8827, mention_recall: 0.9823, batch_loss: 1.8033, loss: 11.5126 ||:  96%|#########6| 2746/2851 [06:05<00:13,  7.80it/s]
2022-07-08 12:35:35,357 - INFO - tqdm - coref_precision: 0.9225, coref_recall: 0.8480, coref_f1: 0.8832, mention_recall: 0.9825, batch_loss: 27.5966, loss: 11.4279 ||:  99%|#########9| 2827/2851 [06:15<00:02,  9.67it/s]
2022-07-08 12:35:36,435 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8482, coref_f1: 0.8833, mention_recall: 0.9825, batch_loss: 12.1078, loss: 11.4040 ||: 100%|#########9| 2837/2851 [06:16<00:01,  9.11it/s]
2022-07-08 12:35:36,594 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8482, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 0.0042, loss: 11.3959 ||: 100%|#########9| 2839/2851 [06:16<00:01, 10.21it/s]
2022-07-08 12:35:36,930 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8482, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 14.3996, loss: 11.3974 ||: 100%|#########9| 2841/2851 [06:16<00:01,  8.14it/s]
2022-07-08 12:35:37,054 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8482, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 3.4773, loss: 11.3946 ||: 100%|#########9| 2842/2851 [06:16<00:01,  8.12it/s]
2022-07-08 12:35:37,185 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 3.7606, loss: 11.3919 ||: 100%|#########9| 2843/2851 [06:16<00:01,  8.00it/s]
2022-07-08 12:35:37,342 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 22.0265, loss: 11.3956 ||: 100%|#########9| 2844/2851 [06:17<00:00,  7.54it/s]
2022-07-08 12:35:37,453 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 0.0038, loss: 11.3916 ||: 100%|#########9| 2845/2851 [06:17<00:00,  7.86it/s]
2022-07-08 12:35:37,562 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 19.7725, loss: 11.3946 ||: 100%|#########9| 2846/2851 [06:17<00:00,  8.18it/s]
2022-07-08 12:35:37,728 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8482, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 45.4906, loss: 11.4065 ||: 100%|#########9| 2847/2851 [06:17<00:00,  7.44it/s]
2022-07-08 12:35:37,843 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 0.5950, loss: 11.4027 ||: 100%|#########9| 2848/2851 [06:17<00:00,  7.77it/s]
2022-07-08 12:35:37,974 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8834, mention_recall: 0.9825, batch_loss: 1.0788, loss: 11.3991 ||: 100%|#########9| 2849/2851 [06:17<00:00,  7.72it/s]
2022-07-08 12:35:38,112 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8835, mention_recall: 0.9825, batch_loss: 0.1651, loss: 11.3952 ||: 100%|#########9| 2850/2851 [06:17<00:00,  7.58it/s]
2022-07-08 12:35:38,199 - INFO - tqdm - coref_precision: 0.9227, coref_recall: 0.8483, coref_f1: 0.8835, mention_recall: 0.9825, batch_loss: 0.0001, loss: 11.3912 ||: 100%|##########| 2851/2851 [06:17<00:00,  7.54it/s]
2022-07-08 12:35:39,069 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:35:39,070 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:35:49,121 - INFO - tqdm - coref_precision: 0.7511, coref_recall: 0.7149, coref_f1: 0.7322, mention_recall: 0.9646, batch_loss: 67.9884, loss: 60.1620 ||:  52%|#####1    | 206/397 [00:10<00:10, 18.60it/s]
2022-07-08 12:35:58,649 - INFO - tqdm - coref_precision: 0.7653, coref_recall: 0.7278, coref_f1: 0.7457, mention_recall: 0.9645, batch_loss: 62.2937, loss: 60.3251 ||: 100%|##########| 397/397 [00:19<00:00, 18.72it/s]
2022-07-08 12:35:58,650 - INFO - tqdm - coref_precision: 0.7653, coref_recall: 0.7278, coref_f1: 0.7457, mention_recall: 0.9645, batch_loss: 62.2937, loss: 60.3251 ||: 100%|##########| 397/397 [00:19<00:00, 20.28it/s]
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.883  |     0.746
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.923  |     0.765
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.848  |     0.728
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger - loss               |    11.391  |    60.325
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.983  |     0.964
2022-07-08 12:36:00,539 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:36:00,539 - INFO - allennlp.training.trainer - Epoch duration: 0:06:40.323040
2022-07-08 12:36:00,539 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:33:15
2022-07-08 12:36:00,539 - INFO - allennlp.training.trainer - Epoch 12/149
2022-07-08 12:36:00,540 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:36:00,540 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:36:00,541 - INFO - allennlp.training.trainer - Training
2022-07-08 12:36:00,541 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:36:10,653 - INFO - tqdm - coref_precision: 0.9283, coref_recall: 0.8623, coref_f1: 0.8937, mention_recall: 0.9852, batch_loss: 0.0000, loss: 8.6059 ||:   3%|2         | 74/2851 [00:10<06:25,  7.21it/s]
2022-07-08 12:36:20,736 - INFO - tqdm - coref_precision: 0.9350, coref_recall: 0.8736, coref_f1: 0.9029, mention_recall: 0.9858, batch_loss: 42.6950, loss: 7.8355 ||:   6%|5         | 160/2851 [00:20<06:14,  7.19it/s]
2022-07-08 12:36:30,983 - INFO - tqdm - coref_precision: 0.9391, coref_recall: 0.8753, coref_f1: 0.9057, mention_recall: 0.9865, batch_loss: 65.3769, loss: 7.4213 ||:   9%|8         | 243/2851 [00:30<07:13,  6.01it/s]
2022-07-08 12:36:41,045 - INFO - tqdm - coref_precision: 0.9377, coref_recall: 0.8702, coref_f1: 0.9023, mention_recall: 0.9858, batch_loss: 21.1040, loss: 8.2556 ||:  11%|#1        | 315/2851 [00:40<04:58,  8.49it/s]
2022-07-08 12:36:51,176 - INFO - tqdm - coref_precision: 0.9399, coref_recall: 0.8717, coref_f1: 0.9041, mention_recall: 0.9862, batch_loss: 0.0806, loss: 7.6844 ||:  14%|#4        | 403/2851 [00:50<04:48,  8.49it/s]
2022-07-08 12:37:02,637 - INFO - tqdm - coref_precision: 0.9322, coref_recall: 0.8672, coref_f1: 0.8981, mention_recall: 0.9860, batch_loss: 808.9637, loss: 9.4437 ||:  17%|#6        | 480/2851 [01:02<22:33,  1.75it/s]
2022-07-08 12:37:12,772 - INFO - tqdm - coref_precision: 0.9331, coref_recall: 0.8655, coref_f1: 0.8976, mention_recall: 0.9847, batch_loss: 2.5172, loss: 9.2842 ||:  20%|#9        | 556/2851 [01:12<04:58,  7.68it/s]
2022-07-08 12:37:22,864 - INFO - tqdm - coref_precision: 0.9341, coref_recall: 0.8660, coref_f1: 0.8984, mention_recall: 0.9847, batch_loss: 22.9734, loss: 9.2624 ||:  22%|##2       | 633/2851 [01:22<04:54,  7.53it/s]
2022-07-08 12:37:32,916 - INFO - tqdm - coref_precision: 0.9345, coref_recall: 0.8634, coref_f1: 0.8970, mention_recall: 0.9832, batch_loss: 0.0267, loss: 9.1792 ||:  25%|##4       | 708/2851 [01:32<03:47,  9.41it/s]
2022-07-08 12:37:42,970 - INFO - tqdm - coref_precision: 0.9362, coref_recall: 0.8652, coref_f1: 0.8988, mention_recall: 0.9838, batch_loss: 1.4266, loss: 8.8757 ||:  28%|##7       | 794/2851 [01:42<03:45,  9.10it/s]
2022-07-08 12:37:53,097 - INFO - tqdm - coref_precision: 0.9356, coref_recall: 0.8633, coref_f1: 0.8974, mention_recall: 0.9839, batch_loss: 25.7176, loss: 9.0278 ||:  30%|###       | 867/2851 [01:52<03:41,  8.98it/s]
2022-07-08 12:38:03,230 - INFO - tqdm - coref_precision: 0.9373, coref_recall: 0.8646, coref_f1: 0.8989, mention_recall: 0.9838, batch_loss: 6.5792, loss: 8.6840 ||:  33%|###3      | 953/2851 [02:02<03:09, 10.03it/s]
2022-07-08 12:38:13,301 - INFO - tqdm - coref_precision: 0.9322, coref_recall: 0.8600, coref_f1: 0.8941, mention_recall: 0.9841, batch_loss: 0.6438, loss: 9.3988 ||:  36%|###5      | 1018/2851 [02:12<03:29,  8.76it/s]
2022-07-08 12:38:23,413 - INFO - tqdm - coref_precision: 0.9320, coref_recall: 0.8579, coref_f1: 0.8929, mention_recall: 0.9836, batch_loss: 3.1030, loss: 9.5983 ||:  38%|###7      | 1074/2851 [02:22<03:56,  7.51it/s]
2022-07-08 12:38:33,427 - INFO - tqdm - coref_precision: 0.9324, coref_recall: 0.8588, coref_f1: 0.8936, mention_recall: 0.9832, batch_loss: 7.5929, loss: 9.5826 ||:  40%|####      | 1147/2851 [02:32<03:20,  8.52it/s]
2022-07-08 12:38:44,125 - INFO - tqdm - coref_precision: 0.9299, coref_recall: 0.8552, coref_f1: 0.8905, mention_recall: 0.9827, batch_loss: 95.5349, loss: 10.2059 ||:  42%|####2     | 1207/2851 [02:43<08:43,  3.14it/s]
2022-07-08 12:38:54,146 - INFO - tqdm - coref_precision: 0.9308, coref_recall: 0.8559, coref_f1: 0.8913, mention_recall: 0.9830, batch_loss: 0.3126, loss: 10.1146 ||:  45%|####4     | 1282/2851 [02:53<02:25, 10.79it/s]
2022-07-08 12:39:04,290 - INFO - tqdm - coref_precision: 0.9317, coref_recall: 0.8574, coref_f1: 0.8926, mention_recall: 0.9835, batch_loss: 0.8063, loss: 9.9487 ||:  48%|####7     | 1362/2851 [03:03<03:10,  7.82it/s]
2022-07-08 12:39:14,436 - INFO - tqdm - coref_precision: 0.9324, coref_recall: 0.8587, coref_f1: 0.8935, mention_recall: 0.9836, batch_loss: 1.4042, loss: 9.8677 ||:  51%|#####     | 1442/2851 [03:13<02:49,  8.30it/s]
2022-07-08 12:39:24,519 - INFO - tqdm - coref_precision: 0.9330, coref_recall: 0.8601, coref_f1: 0.8946, mention_recall: 0.9838, batch_loss: 0.1947, loss: 9.7314 ||:  53%|#####3    | 1523/2851 [03:23<02:46,  7.99it/s]
2022-07-08 12:39:34,542 - INFO - tqdm - coref_precision: 0.9335, coref_recall: 0.8599, coref_f1: 0.8947, mention_recall: 0.9837, batch_loss: 0.3232, loss: 9.6758 ||:  56%|#####5    | 1595/2851 [03:34<02:44,  7.64it/s]
2022-07-08 12:39:44,575 - INFO - tqdm - coref_precision: 0.9342, coref_recall: 0.8602, coref_f1: 0.8952, mention_recall: 0.9838, batch_loss: 11.2668, loss: 9.6089 ||:  59%|#####8    | 1673/2851 [03:44<02:26,  8.04it/s]
2022-07-08 12:39:54,724 - INFO - tqdm - coref_precision: 0.9341, coref_recall: 0.8605, coref_f1: 0.8953, mention_recall: 0.9838, batch_loss: 13.7136, loss: 9.6223 ||:  62%|######1   | 1758/2851 [03:54<01:50,  9.92it/s]
2022-07-08 12:40:04,795 - INFO - tqdm - coref_precision: 0.9348, coref_recall: 0.8617, coref_f1: 0.8963, mention_recall: 0.9841, batch_loss: 7.9241, loss: 9.4265 ||:  65%|######4   | 1842/2851 [04:04<02:21,  7.15it/s]
2022-07-08 12:40:14,863 - INFO - tqdm - coref_precision: 0.9356, coref_recall: 0.8625, coref_f1: 0.8970, mention_recall: 0.9841, batch_loss: 0.8985, loss: 9.2389 ||:  68%|######7   | 1928/2851 [04:14<02:13,  6.93it/s]
2022-07-08 12:40:24,891 - INFO - tqdm - coref_precision: 0.9354, coref_recall: 0.8621, coref_f1: 0.8967, mention_recall: 0.9843, batch_loss: 66.4924, loss: 9.3496 ||:  70%|#######   | 1998/2851 [04:24<03:22,  4.22it/s]
2022-07-08 12:40:35,034 - INFO - tqdm - coref_precision: 0.9340, coref_recall: 0.8597, coref_f1: 0.8948, mention_recall: 0.9838, batch_loss: 40.4619, loss: 9.7181 ||:  72%|#######2  | 2065/2851 [04:34<03:55,  3.33it/s]
2022-07-08 12:40:45,108 - INFO - tqdm - coref_precision: 0.9343, coref_recall: 0.8600, coref_f1: 0.8951, mention_recall: 0.9838, batch_loss: 3.7530, loss: 9.6447 ||:  75%|#######5  | 2144/2851 [04:44<01:23,  8.49it/s]
2022-07-08 12:40:55,168 - INFO - tqdm - coref_precision: 0.9349, coref_recall: 0.8609, coref_f1: 0.8959, mention_recall: 0.9841, batch_loss: 0.3257, loss: 9.5711 ||:  78%|#######7  | 2222/2851 [04:54<01:15,  8.36it/s]
2022-07-08 12:41:05,202 - INFO - tqdm - coref_precision: 0.9351, coref_recall: 0.8608, coref_f1: 0.8959, mention_recall: 0.9841, batch_loss: 8.0341, loss: 9.5286 ||:  81%|########  | 2300/2851 [05:04<01:03,  8.67it/s]
2022-07-08 12:41:15,338 - INFO - tqdm - coref_precision: 0.9354, coref_recall: 0.8613, coref_f1: 0.8963, mention_recall: 0.9841, batch_loss: 17.2864, loss: 9.4715 ||:  83%|########3 | 2377/2851 [05:14<01:03,  7.45it/s]
2022-07-08 12:41:25,497 - INFO - tqdm - coref_precision: 0.9352, coref_recall: 0.8616, coref_f1: 0.8964, mention_recall: 0.9843, batch_loss: 31.9200, loss: 9.4880 ||:  86%|########5 | 2443/2851 [05:24<01:07,  6.08it/s]
2022-07-08 12:41:35,571 - INFO - tqdm - coref_precision: 0.9354, coref_recall: 0.8616, coref_f1: 0.8965, mention_recall: 0.9844, batch_loss: 0.0000, loss: 9.4871 ||:  88%|########8 | 2521/2851 [05:35<00:39,  8.32it/s]
2022-07-08 12:41:45,672 - INFO - tqdm - coref_precision: 0.9356, coref_recall: 0.8623, coref_f1: 0.8970, mention_recall: 0.9845, batch_loss: 19.3836, loss: 9.4644 ||:  91%|#########1| 2599/2851 [05:45<00:31,  8.09it/s]
2022-07-08 12:41:55,769 - INFO - tqdm - coref_precision: 0.9361, coref_recall: 0.8635, coref_f1: 0.8978, mention_recall: 0.9847, batch_loss: 28.8316, loss: 9.3721 ||:  94%|#########4| 2681/2851 [05:55<00:22,  7.55it/s]
2022-07-08 12:42:05,993 - INFO - tqdm - coref_precision: 0.9362, coref_recall: 0.8632, coref_f1: 0.8977, mention_recall: 0.9847, batch_loss: 49.9982, loss: 9.3527 ||:  97%|#########6| 2758/2851 [06:05<00:15,  5.95it/s]
2022-07-08 12:42:16,016 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8634, coref_f1: 0.8980, mention_recall: 0.9847, batch_loss: 37.3406, loss: 9.2791 ||:  99%|#########9| 2836/2851 [06:15<00:02,  5.98it/s]
2022-07-08 12:42:16,151 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8634, coref_f1: 0.8980, mention_recall: 0.9846, batch_loss: 0.0090, loss: 9.2759 ||: 100%|#########9| 2837/2851 [06:15<00:02,  6.33it/s]
2022-07-08 12:42:16,362 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8634, coref_f1: 0.8980, mention_recall: 0.9847, batch_loss: 7.3700, loss: 9.2719 ||: 100%|#########9| 2839/2851 [06:15<00:01,  7.46it/s]
2022-07-08 12:42:16,513 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8635, coref_f1: 0.8980, mention_recall: 0.9847, batch_loss: 0.7772, loss: 9.2689 ||: 100%|#########9| 2840/2851 [06:15<00:01,  7.23it/s]
2022-07-08 12:42:16,735 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8635, coref_f1: 0.8980, mention_recall: 0.9847, batch_loss: 26.4183, loss: 9.2717 ||: 100%|#########9| 2842/2851 [06:16<00:01,  7.87it/s]
2022-07-08 12:42:16,928 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8635, coref_f1: 0.8980, mention_recall: 0.9847, batch_loss: 3.8755, loss: 9.2683 ||: 100%|#########9| 2844/2851 [06:16<00:00,  8.65it/s]
2022-07-08 12:42:17,057 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8635, coref_f1: 0.8981, mention_recall: 0.9847, batch_loss: 7.9588, loss: 9.2678 ||: 100%|#########9| 2845/2851 [06:16<00:00,  8.44it/s]
2022-07-08 12:42:17,163 - INFO - tqdm - coref_precision: 0.9366, coref_recall: 0.8635, coref_f1: 0.8981, mention_recall: 0.9847, batch_loss: 0.0008, loss: 9.2646 ||: 100%|#########9| 2846/2851 [06:16<00:00,  8.64it/s]
2022-07-08 12:42:17,348 - INFO - tqdm - coref_precision: 0.9367, coref_recall: 0.8636, coref_f1: 0.8981, mention_recall: 0.9847, batch_loss: 0.1081, loss: 9.2581 ||: 100%|#########9| 2848/2851 [06:16<00:00,  9.40it/s]
2022-07-08 12:42:17,580 - INFO - tqdm - coref_precision: 0.9367, coref_recall: 0.8636, coref_f1: 0.8981, mention_recall: 0.9847, batch_loss: 8.0040, loss: 9.2544 ||: 100%|#########9| 2850/2851 [06:17<00:00,  9.10it/s]
2022-07-08 12:42:17,761 - INFO - tqdm - coref_precision: 0.9367, coref_recall: 0.8636, coref_f1: 0.8981, mention_recall: 0.9847, batch_loss: 13.5661, loss: 9.2559 ||: 100%|##########| 2851/2851 [06:17<00:00,  8.02it/s]
2022-07-08 12:42:17,763 - INFO - tqdm - coref_precision: 0.9367, coref_recall: 0.8636, coref_f1: 0.8981, mention_recall: 0.9847, batch_loss: 13.5661, loss: 9.2559 ||: 100%|##########| 2851/2851 [06:17<00:00,  7.56it/s]
2022-07-08 12:42:18,633 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:42:18,634 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:42:28,648 - INFO - tqdm - coref_precision: 0.7505, coref_recall: 0.7146, coref_f1: 0.7317, mention_recall: 0.9592, batch_loss: 168.0521, loss: 63.7749 ||:  47%|####7     | 188/397 [00:10<00:13, 15.59it/s]
2022-07-08 12:42:38,119 - INFO - tqdm - coref_precision: 0.7643, coref_recall: 0.7341, coref_f1: 0.7485, mention_recall: 0.9634, batch_loss: 29.0715, loss: 56.1009 ||: 100%|#########9| 396/397 [00:19<00:00, 27.58it/s]
2022-07-08 12:42:38,153 - INFO - tqdm - coref_precision: 0.7644, coref_recall: 0.7342, coref_f1: 0.7486, mention_recall: 0.9634, batch_loss: 54.9526, loss: 56.0980 ||: 100%|##########| 397/397 [00:19<00:00, 20.34it/s]
2022-07-08 12:42:40,046 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:42:40,046 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.898  |     0.749
2022-07-08 12:42:40,046 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.937  |     0.764
2022-07-08 12:42:40,046 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.864  |     0.734
2022-07-08 12:42:40,046 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:42:40,046 - INFO - allennlp.training.callbacks.console_logger - loss               |     9.256  |    56.098
2022-07-08 12:42:40,046 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.985  |     0.963
2022-07-08 12:42:40,047 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:42:40,047 - INFO - allennlp.training.trainer - Epoch duration: 0:06:39.507127
2022-07-08 12:42:40,047 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:25:23
2022-07-08 12:42:40,047 - INFO - allennlp.training.trainer - Epoch 13/149
2022-07-08 12:42:40,047 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:42:40,047 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:42:40,048 - INFO - allennlp.training.trainer - Training
2022-07-08 12:42:40,048 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:42:50,050 - INFO - tqdm - coref_precision: 0.9563, coref_recall: 0.9062, coref_f1: 0.9300, mention_recall: 0.9915, batch_loss: 0.0531, loss: 5.2579 ||:   2%|2         | 64/2851 [00:10<06:00,  7.74it/s]
2022-07-08 12:43:00,207 - INFO - tqdm - coref_precision: 0.9570, coref_recall: 0.8909, coref_f1: 0.9220, mention_recall: 0.9853, batch_loss: 2.3492, loss: 5.9647 ||:   5%|4         | 139/2851 [00:20<05:16,  8.57it/s]
2022-07-08 12:43:10,207 - INFO - tqdm - coref_precision: 0.9602, coref_recall: 0.8874, coref_f1: 0.9212, mention_recall: 0.9785, batch_loss: 11.1214, loss: 5.3165 ||:   8%|7         | 222/2851 [00:30<04:23,  9.97it/s]
2022-07-08 12:43:20,717 - INFO - tqdm - coref_precision: 0.9468, coref_recall: 0.8758, coref_f1: 0.9092, mention_recall: 0.9802, batch_loss: 542.4880, loss: 7.2687 ||:  10%|#         | 298/2851 [00:40<14:53,  2.86it/s]
2022-07-08 12:43:30,772 - INFO - tqdm - coref_precision: 0.9498, coref_recall: 0.8799, coref_f1: 0.9128, mention_recall: 0.9820, batch_loss: 0.0472, loss: 6.9014 ||:  13%|#3        | 376/2851 [00:50<06:26,  6.40it/s]
2022-07-08 12:43:41,057 - INFO - tqdm - coref_precision: 0.9484, coref_recall: 0.8770, coref_f1: 0.9106, mention_recall: 0.9814, batch_loss: 127.7217, loss: 7.2256 ||:  16%|#5        | 449/2851 [01:01<07:48,  5.13it/s]
2022-07-08 12:43:51,086 - INFO - tqdm - coref_precision: 0.9504, coref_recall: 0.8775, coref_f1: 0.9118, mention_recall: 0.9820, batch_loss: 0.0153, loss: 7.1163 ||:  18%|#8        | 523/2851 [01:11<05:48,  6.67it/s]
2022-07-08 12:44:01,206 - INFO - tqdm - coref_precision: 0.9489, coref_recall: 0.8765, coref_f1: 0.9107, mention_recall: 0.9827, batch_loss: 18.5883, loss: 7.4460 ||:  21%|##1       | 603/2851 [01:21<04:05,  9.15it/s]
2022-07-08 12:44:11,384 - INFO - tqdm - coref_precision: 0.9489, coref_recall: 0.8747, coref_f1: 0.9097, mention_recall: 0.9821, batch_loss: 73.6909, loss: 7.4854 ||:  24%|##3       | 676/2851 [01:31<06:08,  5.90it/s]
2022-07-08 12:44:21,533 - INFO - tqdm - coref_precision: 0.9502, coref_recall: 0.8759, coref_f1: 0.9109, mention_recall: 0.9823, batch_loss: 19.8290, loss: 7.2256 ||:  27%|##6       | 765/2851 [01:41<03:56,  8.82it/s]
2022-07-08 12:44:31,590 - INFO - tqdm - coref_precision: 0.9504, coref_recall: 0.8773, coref_f1: 0.9118, mention_recall: 0.9829, batch_loss: 2.6510, loss: 7.2213 ||:  30%|##9       | 843/2851 [01:51<04:02,  8.29it/s]
2022-07-08 12:44:41,725 - INFO - tqdm - coref_precision: 0.9499, coref_recall: 0.8779, coref_f1: 0.9119, mention_recall: 0.9833, batch_loss: 32.2035, loss: 7.3364 ||:  32%|###2      | 921/2851 [02:01<05:27,  5.90it/s]
2022-07-08 12:44:51,935 - INFO - tqdm - coref_precision: 0.9491, coref_recall: 0.8776, coref_f1: 0.9114, mention_recall: 0.9836, batch_loss: 1.6600, loss: 7.4065 ||:  35%|###5      | 1000/2851 [02:11<04:08,  7.45it/s]
2022-07-08 12:45:02,111 - INFO - tqdm - coref_precision: 0.9484, coref_recall: 0.8766, coref_f1: 0.9105, mention_recall: 0.9837, batch_loss: 0.0123, loss: 7.6086 ||:  38%|###7      | 1071/2851 [02:22<03:06,  9.52it/s]
2022-07-08 12:45:12,227 - INFO - tqdm - coref_precision: 0.9481, coref_recall: 0.8772, coref_f1: 0.9107, mention_recall: 0.9840, batch_loss: 22.0260, loss: 7.6305 ||:  40%|####      | 1147/2851 [02:32<04:21,  6.51it/s]
2022-07-08 12:45:22,381 - INFO - tqdm - coref_precision: 0.9456, coref_recall: 0.8763, coref_f1: 0.9091, mention_recall: 0.9840, batch_loss: 5.0027, loss: 7.9488 ||:  43%|####2     | 1220/2851 [02:42<02:59,  9.10it/s]
2022-07-08 12:45:32,582 - INFO - tqdm - coref_precision: 0.9465, coref_recall: 0.8769, coref_f1: 0.9099, mention_recall: 0.9841, batch_loss: 18.8948, loss: 7.8280 ||:  46%|####5     | 1302/2851 [02:52<03:37,  7.11it/s]
2022-07-08 12:45:42,590 - INFO - tqdm - coref_precision: 0.9459, coref_recall: 0.8766, coref_f1: 0.9095, mention_recall: 0.9842, batch_loss: 10.1015, loss: 7.8556 ||:  48%|####8     | 1374/2851 [03:02<02:42,  9.09it/s]
2022-07-08 12:45:52,757 - INFO - tqdm - coref_precision: 0.9435, coref_recall: 0.8725, coref_f1: 0.9062, mention_recall: 0.9837, batch_loss: 7.4343, loss: 8.4019 ||:  51%|#####     | 1447/2851 [03:12<02:33,  9.14it/s]
2022-07-08 12:46:02,991 - INFO - tqdm - coref_precision: 0.9436, coref_recall: 0.8727, coref_f1: 0.9063, mention_recall: 0.9836, batch_loss: 18.1017, loss: 8.3664 ||:  54%|#####3    | 1526/2851 [03:22<02:29,  8.85it/s]
2022-07-08 12:46:13,086 - INFO - tqdm - coref_precision: 0.9441, coref_recall: 0.8733, coref_f1: 0.9069, mention_recall: 0.9837, batch_loss: 0.0042, loss: 8.2743 ||:  56%|#####6    | 1600/2851 [03:33<02:30,  8.30it/s]
2022-07-08 12:46:23,204 - INFO - tqdm - coref_precision: 0.9441, coref_recall: 0.8739, coref_f1: 0.9072, mention_recall: 0.9839, batch_loss: 0.6701, loss: 8.2742 ||:  59%|#####8    | 1675/2851 [03:43<03:29,  5.62it/s]
2022-07-08 12:46:33,382 - INFO - tqdm - coref_precision: 0.9452, coref_recall: 0.8751, coref_f1: 0.9083, mention_recall: 0.9840, batch_loss: 3.1260, loss: 8.1140 ||:  62%|######1   | 1761/2851 [03:53<02:09,  8.45it/s]
2022-07-08 12:46:43,550 - INFO - tqdm - coref_precision: 0.9452, coref_recall: 0.8742, coref_f1: 0.9078, mention_recall: 0.9842, batch_loss: 33.9906, loss: 8.1171 ||:  64%|######4   | 1834/2851 [04:03<02:57,  5.73it/s]
2022-07-08 12:46:53,683 - INFO - tqdm - coref_precision: 0.9450, coref_recall: 0.8741, coref_f1: 0.9077, mention_recall: 0.9842, batch_loss: 7.1009, loss: 8.1038 ||:  67%|######6   | 1909/2851 [04:13<02:01,  7.73it/s]
2022-07-08 12:47:03,721 - INFO - tqdm - coref_precision: 0.9452, coref_recall: 0.8738, coref_f1: 0.9076, mention_recall: 0.9843, batch_loss: 10.8586, loss: 8.0651 ||:  70%|######9   | 1986/2851 [04:23<01:36,  8.92it/s]
2022-07-08 12:47:13,830 - INFO - tqdm - coref_precision: 0.9454, coref_recall: 0.8744, coref_f1: 0.9080, mention_recall: 0.9843, batch_loss: 14.4694, loss: 8.0207 ||:  72%|#######2  | 2059/2851 [04:33<02:36,  5.06it/s]
2022-07-08 12:47:23,866 - INFO - tqdm - coref_precision: 0.9448, coref_recall: 0.8731, coref_f1: 0.9070, mention_recall: 0.9841, batch_loss: 1.9836, loss: 8.0580 ||:  75%|#######4  | 2130/2851 [04:43<01:22,  8.76it/s]
2022-07-08 12:47:33,939 - INFO - tqdm - coref_precision: 0.9437, coref_recall: 0.8705, coref_f1: 0.9051, mention_recall: 0.9839, batch_loss: 11.0452, loss: 8.2356 ||:  76%|#######6  | 2175/2851 [04:53<03:20,  3.36it/s]
2022-07-08 12:47:44,004 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8705, coref_f1: 0.9052, mention_recall: 0.9840, batch_loss: 0.5807, loss: 8.1740 ||:  79%|#######9  | 2258/2851 [05:03<01:04,  9.17it/s]
2022-07-08 12:47:54,022 - INFO - tqdm - coref_precision: 0.9442, coref_recall: 0.8708, coref_f1: 0.9055, mention_recall: 0.9839, batch_loss: 0.0008, loss: 8.1264 ||:  82%|########1 | 2332/2851 [05:13<01:01,  8.44it/s]
2022-07-08 12:48:04,138 - INFO - tqdm - coref_precision: 0.9444, coref_recall: 0.8716, coref_f1: 0.9060, mention_recall: 0.9841, batch_loss: 0.0424, loss: 8.1043 ||:  85%|########4 | 2416/2851 [05:24<00:52,  8.30it/s]
2022-07-08 12:48:14,224 - INFO - tqdm - coref_precision: 0.9450, coref_recall: 0.8726, coref_f1: 0.9069, mention_recall: 0.9842, batch_loss: 6.7533, loss: 7.9739 ||:  88%|########7 | 2503/2851 [05:34<00:37,  9.18it/s]
2022-07-08 12:48:24,337 - INFO - tqdm - coref_precision: 0.9445, coref_recall: 0.8719, coref_f1: 0.9063, mention_recall: 0.9842, batch_loss: 27.2433, loss: 8.0848 ||:  90%|######### | 2574/2851 [05:44<00:32,  8.48it/s]
2022-07-08 12:48:34,398 - INFO - tqdm - coref_precision: 0.9448, coref_recall: 0.8729, coref_f1: 0.9069, mention_recall: 0.9843, batch_loss: 36.0892, loss: 7.9781 ||:  93%|#########3| 2660/2851 [05:54<00:25,  7.47it/s]
2022-07-08 12:48:44,578 - INFO - tqdm - coref_precision: 0.9444, coref_recall: 0.8726, coref_f1: 0.9066, mention_recall: 0.9844, batch_loss: 10.5020, loss: 8.0597 ||:  96%|#########5| 2734/2851 [06:04<00:15,  7.64it/s]
2022-07-08 12:48:54,646 - INFO - tqdm - coref_precision: 0.9442, coref_recall: 0.8725, coref_f1: 0.9064, mention_recall: 0.9844, batch_loss: 23.4178, loss: 8.0743 ||:  99%|#########8| 2812/2851 [06:14<00:05,  7.40it/s]
2022-07-08 12:48:57,600 - INFO - tqdm - coref_precision: 0.9443, coref_recall: 0.8724, coref_f1: 0.9064, mention_recall: 0.9844, batch_loss: 6.8842, loss: 8.0564 ||: 100%|#########9| 2837/2851 [06:17<00:01,  8.25it/s]
2022-07-08 12:48:57,783 - INFO - tqdm - coref_precision: 0.9443, coref_recall: 0.8723, coref_f1: 0.9064, mention_recall: 0.9843, batch_loss: 9.9656, loss: 8.0542 ||: 100%|#########9| 2839/2851 [06:17<00:01,  8.96it/s]
2022-07-08 12:48:58,687 - INFO - tqdm - coref_precision: 0.9438, coref_recall: 0.8718, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 251.9623, loss: 8.1401 ||: 100%|#########9| 2840/2851 [06:18<00:02,  3.86it/s]
2022-07-08 12:48:58,891 - INFO - tqdm - coref_precision: 0.9438, coref_recall: 0.8718, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 0.1749, loss: 8.1344 ||: 100%|#########9| 2842/2851 [06:18<00:01,  4.89it/s]
2022-07-08 12:48:58,992 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8718, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 0.0025, loss: 8.1316 ||: 100%|#########9| 2843/2851 [06:18<00:01,  5.44it/s]
2022-07-08 12:48:59,123 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8719, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 2.2481, loss: 8.1295 ||: 100%|#########9| 2844/2851 [06:19<00:01,  5.80it/s]
2022-07-08 12:48:59,248 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8718, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 0.0014, loss: 8.1266 ||: 100%|#########9| 2845/2851 [06:19<00:00,  6.22it/s]
2022-07-08 12:48:59,470 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8718, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 7.7082, loss: 8.1236 ||: 100%|#########9| 2847/2851 [06:19<00:00,  7.11it/s]
2022-07-08 12:48:59,663 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8717, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 8.4983, loss: 8.1238 ||: 100%|#########9| 2848/2851 [06:19<00:00,  6.56it/s]
2022-07-08 12:48:59,826 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8717, coref_f1: 0.9059, mention_recall: 0.9843, batch_loss: 11.0015, loss: 8.1248 ||: 100%|#########9| 2849/2851 [06:19<00:00,  6.45it/s]
2022-07-08 12:49:00,078 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8717, coref_f1: 0.9059, mention_recall: 0.9844, batch_loss: 5.6090, loss: 8.1239 ||: 100%|#########9| 2850/2851 [06:20<00:00,  5.55it/s]
2022-07-08 12:49:00,211 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8718, coref_f1: 0.9059, mention_recall: 0.9844, batch_loss: 5.2763, loss: 8.1229 ||: 100%|##########| 2851/2851 [06:20<00:00,  5.97it/s]
2022-07-08 12:49:00,212 - INFO - tqdm - coref_precision: 0.9439, coref_recall: 0.8718, coref_f1: 0.9059, mention_recall: 0.9844, batch_loss: 5.2763, loss: 8.1229 ||: 100%|##########| 2851/2851 [06:20<00:00,  7.50it/s]
2022-07-08 12:49:01,085 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:49:01,086 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:49:11,239 - INFO - tqdm - coref_precision: 0.7854, coref_recall: 0.7383, coref_f1: 0.7607, mention_recall: 0.9635, batch_loss: 18.5045, loss: 55.8935 ||:  55%|#####4    | 217/397 [00:10<00:09, 18.23it/s]
2022-07-08 12:49:20,742 - INFO - tqdm - coref_precision: 0.7748, coref_recall: 0.7274, coref_f1: 0.7501, mention_recall: 0.9625, batch_loss: 30.8890, loss: 59.8938 ||: 100%|#########9| 396/397 [00:19<00:00, 14.96it/s]
2022-07-08 12:49:20,760 - INFO - tqdm - coref_precision: 0.7748, coref_recall: 0.7274, coref_f1: 0.7501, mention_recall: 0.9625, batch_loss: 0.0000, loss: 59.7429 ||: 100%|##########| 397/397 [00:19<00:00, 20.18it/s]
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.906  |     0.750
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.944  |     0.775
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.872  |     0.727
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger - loss               |     8.123  |    59.743
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.984  |     0.963
2022-07-08 12:49:22,656 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:49:22,656 - INFO - allennlp.training.trainer - Epoch duration: 0:06:42.609736
2022-07-08 12:49:22,657 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:18:12
2022-07-08 12:49:22,657 - INFO - allennlp.training.trainer - Epoch 14/149
2022-07-08 12:49:22,657 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:49:22,657 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:49:22,658 - INFO - allennlp.training.trainer - Training
2022-07-08 12:49:22,658 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:49:32,748 - INFO - tqdm - coref_precision: 0.9350, coref_recall: 0.8687, coref_f1: 0.9000, mention_recall: 0.9900, batch_loss: 0.0001, loss: 8.4985 ||:   2%|2         | 70/2851 [00:10<05:59,  7.73it/s]
2022-07-08 12:49:42,857 - INFO - tqdm - coref_precision: 0.9497, coref_recall: 0.8926, coref_f1: 0.9198, mention_recall: 0.9899, batch_loss: 0.0346, loss: 6.2282 ||:   5%|5         | 153/2851 [00:20<04:59,  9.02it/s]
2022-07-08 12:49:53,328 - INFO - tqdm - coref_precision: 0.9416, coref_recall: 0.8720, coref_f1: 0.9049, mention_recall: 0.9870, batch_loss: 50.2695, loss: 9.4851 ||:   8%|7         | 226/2851 [00:30<09:20,  4.68it/s]
2022-07-08 12:50:03,428 - INFO - tqdm - coref_precision: 0.9408, coref_recall: 0.8726, coref_f1: 0.9049, mention_recall: 0.9866, batch_loss: 12.2480, loss: 9.3013 ||:  11%|#         | 302/2851 [00:40<04:56,  8.60it/s]
2022-07-08 12:50:13,477 - INFO - tqdm - coref_precision: 0.9355, coref_recall: 0.8663, coref_f1: 0.8992, mention_recall: 0.9865, batch_loss: 0.0030, loss: 10.1928 ||:  13%|#2        | 368/2851 [00:50<05:08,  8.04it/s]
2022-07-08 12:50:23,531 - INFO - tqdm - coref_precision: 0.9390, coref_recall: 0.8718, coref_f1: 0.9038, mention_recall: 0.9860, batch_loss: 0.2592, loss: 9.1788 ||:  16%|#5        | 450/2851 [01:00<04:35,  8.72it/s]
2022-07-08 12:50:33,608 - INFO - tqdm - coref_precision: 0.9390, coref_recall: 0.8709, coref_f1: 0.9033, mention_recall: 0.9857, batch_loss: 0.3142, loss: 9.0026 ||:  18%|#8        | 524/2851 [01:10<04:19,  8.96it/s]
2022-07-08 12:50:43,654 - INFO - tqdm - coref_precision: 0.9402, coref_recall: 0.8718, coref_f1: 0.9043, mention_recall: 0.9859, batch_loss: 2.1899, loss: 8.9681 ||:  21%|##        | 594/2851 [01:20<05:18,  7.08it/s]
2022-07-08 12:50:54,075 - INFO - tqdm - coref_precision: 0.9425, coref_recall: 0.8742, coref_f1: 0.9067, mention_recall: 0.9863, batch_loss: 26.5598, loss: 8.7704 ||:  24%|##3       | 670/2851 [01:31<06:18,  5.77it/s]
2022-07-08 12:51:04,120 - INFO - tqdm - coref_precision: 0.9415, coref_recall: 0.8713, coref_f1: 0.9047, mention_recall: 0.9862, batch_loss: 0.1357, loss: 8.7945 ||:  26%|##5       | 741/2851 [01:41<06:42,  5.24it/s]
2022-07-08 12:51:14,138 - INFO - tqdm - coref_precision: 0.9368, coref_recall: 0.8677, coref_f1: 0.9006, mention_recall: 0.9859, batch_loss: 5.7040, loss: 9.8340 ||:  28%|##8       | 799/2851 [01:51<09:44,  3.51it/s]
2022-07-08 12:51:24,241 - INFO - tqdm - coref_precision: 0.9364, coref_recall: 0.8656, coref_f1: 0.8993, mention_recall: 0.9857, batch_loss: 228.7934, loss: 9.8554 ||:  30%|###       | 865/2851 [02:01<14:59,  2.21it/s]
2022-07-08 12:51:34,338 - INFO - tqdm - coref_precision: 0.9378, coref_recall: 0.8660, coref_f1: 0.9001, mention_recall: 0.9854, batch_loss: 13.7667, loss: 9.6346 ||:  33%|###2      | 940/2851 [02:11<04:59,  6.38it/s]
2022-07-08 12:51:44,398 - INFO - tqdm - coref_precision: 0.9385, coref_recall: 0.8668, coref_f1: 0.9008, mention_recall: 0.9855, batch_loss: 0.0286, loss: 9.3998 ||:  35%|###5      | 1000/2851 [02:21<04:06,  7.49it/s]
2022-07-08 12:51:54,477 - INFO - tqdm - coref_precision: 0.9365, coref_recall: 0.8658, coref_f1: 0.8994, mention_recall: 0.9857, batch_loss: 0.0470, loss: 9.6769 ||:  37%|###7      | 1066/2851 [02:31<04:31,  6.57it/s]
2022-07-08 12:52:04,615 - INFO - tqdm - coref_precision: 0.9384, coref_recall: 0.8685, coref_f1: 0.9017, mention_recall: 0.9857, batch_loss: 12.3437, loss: 9.2341 ||:  40%|####      | 1152/2851 [02:41<03:21,  8.41it/s]
2022-07-08 12:52:14,754 - INFO - tqdm - coref_precision: 0.9396, coref_recall: 0.8699, coref_f1: 0.9030, mention_recall: 0.9858, batch_loss: 33.1865, loss: 8.9804 ||:  43%|####3     | 1237/2851 [02:52<03:58,  6.77it/s]
2022-07-08 12:52:24,828 - INFO - tqdm - coref_precision: 0.9402, coref_recall: 0.8707, coref_f1: 0.9037, mention_recall: 0.9860, batch_loss: 0.8320, loss: 8.8263 ||:  46%|####6     | 1316/2851 [03:02<02:49,  9.06it/s]
2022-07-08 12:52:35,029 - INFO - tqdm - coref_precision: 0.9399, coref_recall: 0.8684, coref_f1: 0.9023, mention_recall: 0.9851, batch_loss: 134.9458, loss: 8.8824 ||:  49%|####8     | 1391/2851 [03:12<04:03,  6.00it/s]
2022-07-08 12:52:45,065 - INFO - tqdm - coref_precision: 0.9411, coref_recall: 0.8695, coref_f1: 0.9035, mention_recall: 0.9852, batch_loss: 0.0524, loss: 8.6044 ||:  52%|#####1    | 1476/2851 [03:22<02:22,  9.62it/s]
2022-07-08 12:52:55,094 - INFO - tqdm - coref_precision: 0.9426, coref_recall: 0.8716, coref_f1: 0.9052, mention_recall: 0.9853, batch_loss: 0.0061, loss: 8.3318 ||:  55%|#####4    | 1563/2851 [03:32<02:23,  8.98it/s]
2022-07-08 12:53:05,140 - INFO - tqdm - coref_precision: 0.9438, coref_recall: 0.8729, coref_f1: 0.9065, mention_recall: 0.9854, batch_loss: 27.6013, loss: 8.1747 ||:  58%|#####7    | 1641/2851 [03:42<02:41,  7.48it/s]
2022-07-08 12:53:15,299 - INFO - tqdm - coref_precision: 0.9444, coref_recall: 0.8733, coref_f1: 0.9069, mention_recall: 0.9856, batch_loss: 63.3432, loss: 8.0657 ||:  60%|######    | 1721/2851 [03:52<03:03,  6.17it/s]
2022-07-08 12:53:25,310 - INFO - tqdm - coref_precision: 0.9451, coref_recall: 0.8745, coref_f1: 0.9079, mention_recall: 0.9858, batch_loss: 0.0003, loss: 7.9386 ||:  63%|######3   | 1804/2851 [04:02<02:20,  7.45it/s]
2022-07-08 12:53:35,492 - INFO - tqdm - coref_precision: 0.9459, coref_recall: 0.8754, coref_f1: 0.9087, mention_recall: 0.9858, batch_loss: 1.7485, loss: 7.7968 ||:  66%|######6   | 1882/2851 [04:12<01:35, 10.16it/s]
2022-07-08 12:53:45,492 - INFO - tqdm - coref_precision: 0.9461, coref_recall: 0.8759, coref_f1: 0.9091, mention_recall: 0.9860, batch_loss: 20.2927, loss: 7.7600 ||:  69%|######8   | 1955/2851 [04:22<02:09,  6.92it/s]
2022-07-08 12:53:55,681 - INFO - tqdm - coref_precision: 0.9458, coref_recall: 0.8748, coref_f1: 0.9084, mention_recall: 0.9857, batch_loss: 3.4502, loss: 7.8010 ||:  71%|#######1  | 2028/2851 [04:33<03:44,  3.67it/s]
2022-07-08 12:54:05,752 - INFO - tqdm - coref_precision: 0.9466, coref_recall: 0.8758, coref_f1: 0.9093, mention_recall: 0.9857, batch_loss: 1.0794, loss: 7.6631 ||:  74%|#######3  | 2108/2851 [04:43<01:52,  6.61it/s]
2022-07-08 12:54:15,767 - INFO - tqdm - coref_precision: 0.9467, coref_recall: 0.8763, coref_f1: 0.9096, mention_recall: 0.9857, batch_loss: 36.5290, loss: 7.6469 ||:  77%|#######6  | 2192/2851 [04:53<01:36,  6.86it/s]
2022-07-08 12:54:25,773 - INFO - tqdm - coref_precision: 0.9467, coref_recall: 0.8757, coref_f1: 0.9093, mention_recall: 0.9855, batch_loss: 35.9594, loss: 7.6472 ||:  80%|#######9  | 2267/2851 [05:03<01:20,  7.27it/s]
2022-07-08 12:54:35,984 - INFO - tqdm - coref_precision: 0.9469, coref_recall: 0.8757, coref_f1: 0.9094, mention_recall: 0.9856, batch_loss: 7.0856, loss: 7.6601 ||:  82%|########2 | 2343/2851 [05:13<00:57,  8.85it/s]
2022-07-08 12:54:46,109 - INFO - tqdm - coref_precision: 0.9470, coref_recall: 0.8758, coref_f1: 0.9095, mention_recall: 0.9856, batch_loss: 3.0603, loss: 7.6411 ||:  85%|########4 | 2423/2851 [05:23<00:44,  9.52it/s]
2022-07-08 12:54:56,121 - INFO - tqdm - coref_precision: 0.9473, coref_recall: 0.8761, coref_f1: 0.9098, mention_recall: 0.9856, batch_loss: 0.0048, loss: 7.5678 ||:  88%|########7 | 2507/2851 [05:33<00:43,  7.94it/s]
2022-07-08 12:55:06,132 - INFO - tqdm - coref_precision: 0.9470, coref_recall: 0.8757, coref_f1: 0.9094, mention_recall: 0.9855, batch_loss: 0.1391, loss: 7.6039 ||:  90%|######### | 2577/2851 [05:43<00:35,  7.62it/s]
2022-07-08 12:55:16,324 - INFO - tqdm - coref_precision: 0.9470, coref_recall: 0.8760, coref_f1: 0.9096, mention_recall: 0.9854, batch_loss: 11.7357, loss: 7.5713 ||:  93%|#########3| 2661/2851 [05:53<00:27,  6.86it/s]
2022-07-08 12:55:26,492 - INFO - tqdm - coref_precision: 0.9465, coref_recall: 0.8754, coref_f1: 0.9091, mention_recall: 0.9855, batch_loss: 5.5408, loss: 7.6604 ||:  96%|#########5| 2734/2851 [06:03<00:22,  5.14it/s]
2022-07-08 12:55:36,582 - INFO - tqdm - coref_precision: 0.9469, coref_recall: 0.8758, coref_f1: 0.9095, mention_recall: 0.9855, batch_loss: 0.0001, loss: 7.5919 ||:  99%|#########8| 2815/2851 [06:13<00:04,  8.44it/s]
2022-07-08 12:55:39,308 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8760, coref_f1: 0.9096, mention_recall: 0.9855, batch_loss: 0.3513, loss: 7.5698 ||: 100%|#########9| 2838/2851 [06:16<00:01,  7.33it/s]
2022-07-08 12:55:39,411 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8760, coref_f1: 0.9096, mention_recall: 0.9855, batch_loss: 0.0034, loss: 7.5671 ||: 100%|#########9| 2839/2851 [06:16<00:01,  7.72it/s]
2022-07-08 12:55:39,552 - INFO - tqdm - coref_precision: 0.9470, coref_recall: 0.8760, coref_f1: 0.9096, mention_recall: 0.9855, batch_loss: 13.6553, loss: 7.5692 ||: 100%|#########9| 2840/2851 [06:16<00:01,  7.57it/s]
2022-07-08 12:55:39,728 - INFO - tqdm - coref_precision: 0.9470, coref_recall: 0.8760, coref_f1: 0.9096, mention_recall: 0.9855, batch_loss: 4.7879, loss: 7.5683 ||: 100%|#########9| 2841/2851 [06:17<00:01,  7.00it/s]
2022-07-08 12:55:39,944 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8760, coref_f1: 0.9097, mention_recall: 0.9855, batch_loss: 15.7967, loss: 7.5685 ||: 100%|#########9| 2843/2851 [06:17<00:01,  7.77it/s]
2022-07-08 12:55:40,118 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8761, coref_f1: 0.9097, mention_recall: 0.9855, batch_loss: 0.0130, loss: 7.5632 ||: 100%|#########9| 2845/2851 [06:17<00:00,  8.84it/s]
2022-07-08 12:55:40,234 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8761, coref_f1: 0.9097, mention_recall: 0.9855, batch_loss: 0.0146, loss: 7.5605 ||: 100%|#########9| 2846/2851 [06:17<00:00,  8.79it/s]
2022-07-08 12:55:40,417 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8761, coref_f1: 0.9097, mention_recall: 0.9855, batch_loss: 5.4625, loss: 7.5598 ||: 100%|#########9| 2847/2851 [06:17<00:00,  7.71it/s]
2022-07-08 12:55:40,562 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8761, coref_f1: 0.9097, mention_recall: 0.9855, batch_loss: 1.3062, loss: 7.5576 ||: 100%|#########9| 2848/2851 [06:17<00:00,  7.49it/s]
2022-07-08 12:55:40,762 - INFO - tqdm - coref_precision: 0.9470, coref_recall: 0.8760, coref_f1: 0.9096, mention_recall: 0.9855, batch_loss: 19.2629, loss: 7.5617 ||: 100%|#########9| 2849/2851 [06:18<00:00,  6.63it/s]
2022-07-08 12:55:41,037 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8761, coref_f1: 0.9097, mention_recall: 0.9855, batch_loss: 5.1110, loss: 7.5582 ||: 100%|##########| 2851/2851 [06:18<00:00,  6.89it/s]
2022-07-08 12:55:41,038 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8761, coref_f1: 0.9097, mention_recall: 0.9855, batch_loss: 5.1110, loss: 7.5582 ||: 100%|##########| 2851/2851 [06:18<00:00,  7.53it/s]
2022-07-08 12:55:41,913 - INFO - allennlp.training.trainer - Validating
2022-07-08 12:55:41,914 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 12:55:52,014 - INFO - tqdm - coref_precision: 0.7530, coref_recall: 0.7242, coref_f1: 0.7380, mention_recall: 0.9562, batch_loss: 701.3499, loss: 79.5234 ||:  48%|####7     | 189/397 [00:10<00:21,  9.62it/s]
2022-07-08 12:56:01,382 - INFO - tqdm - coref_precision: 0.7641, coref_recall: 0.7300, coref_f1: 0.7463, mention_recall: 0.9580, batch_loss: 64.7193, loss: 72.1247 ||: 100%|##########| 397/397 [00:19<00:00, 20.39it/s]
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.910  |     0.746
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.947  |     0.764
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.876  |     0.730
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger - loss               |     7.558  |    72.125
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.985  |     0.958
2022-07-08 12:56:03,278 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 12:56:03,278 - INFO - allennlp.training.trainer - Epoch duration: 0:06:40.621794
2022-07-08 12:56:03,279 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:10:47
2022-07-08 12:56:03,279 - INFO - allennlp.training.trainer - Epoch 15/149
2022-07-08 12:56:03,279 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 12:56:03,279 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 12:56:03,280 - INFO - allennlp.training.trainer - Training
2022-07-08 12:56:03,280 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 12:56:13,362 - INFO - tqdm - coref_precision: 0.9624, coref_recall: 0.9043, coref_f1: 0.9320, mention_recall: 0.9872, batch_loss: 18.7388, loss: 3.7131 ||:   2%|2         | 63/2851 [00:10<05:43,  8.11it/s]
2022-07-08 12:56:23,504 - INFO - tqdm - coref_precision: 0.9599, coref_recall: 0.9049, coref_f1: 0.9311, mention_recall: 0.9879, batch_loss: 8.9687, loss: 4.5684 ||:   5%|5         | 148/2851 [00:20<05:01,  8.98it/s]
2022-07-08 12:56:33,513 - INFO - tqdm - coref_precision: 0.9565, coref_recall: 0.8988, coref_f1: 0.9263, mention_recall: 0.9885, batch_loss: 10.2085, loss: 4.9259 ||:   8%|7         | 224/2851 [00:30<08:59,  4.87it/s]
2022-07-08 12:56:43,830 - INFO - tqdm - coref_precision: 0.9559, coref_recall: 0.8931, coref_f1: 0.9229, mention_recall: 0.9879, batch_loss: 48.4057, loss: 5.5071 ||:  11%|#         | 302/2851 [00:40<08:49,  4.82it/s]
2022-07-08 12:56:53,894 - INFO - tqdm - coref_precision: 0.9389, coref_recall: 0.8760, coref_f1: 0.9061, mention_recall: 0.9863, batch_loss: 4.0314, loss: 8.5317 ||:  13%|#2        | 357/2851 [00:50<05:01,  8.28it/s]
2022-07-08 12:57:04,196 - INFO - tqdm - coref_precision: 0.9421, coref_recall: 0.8792, coref_f1: 0.9092, mention_recall: 0.9862, batch_loss: 21.2957, loss: 7.9382 ||:  15%|#5        | 435/2851 [01:00<07:35,  5.30it/s]
2022-07-08 12:57:14,322 - INFO - tqdm - coref_precision: 0.9431, coref_recall: 0.8793, coref_f1: 0.9097, mention_recall: 0.9862, batch_loss: 0.0000, loss: 7.7209 ||:  18%|#7        | 511/2851 [01:11<05:07,  7.62it/s]
2022-07-08 12:57:24,429 - INFO - tqdm - coref_precision: 0.9452, coref_recall: 0.8778, coref_f1: 0.9098, mention_recall: 0.9844, batch_loss: 180.4550, loss: 7.3842 ||:  21%|##        | 593/2851 [01:21<08:15,  4.56it/s]
2022-07-08 12:57:34,527 - INFO - tqdm - coref_precision: 0.9468, coref_recall: 0.8801, coref_f1: 0.9118, mention_recall: 0.9852, batch_loss: 1.2764, loss: 7.3869 ||:  23%|##3       | 667/2851 [01:31<05:06,  7.12it/s]
2022-07-08 12:57:44,608 - INFO - tqdm - coref_precision: 0.9467, coref_recall: 0.8794, coref_f1: 0.9113, mention_recall: 0.9851, batch_loss: 5.7430, loss: 7.4063 ||:  26%|##6       | 745/2851 [01:41<03:20, 10.50it/s]
2022-07-08 12:57:54,686 - INFO - tqdm - coref_precision: 0.9441, coref_recall: 0.8740, coref_f1: 0.9073, mention_recall: 0.9844, batch_loss: 0.0000, loss: 8.1872 ||:  29%|##8       | 821/2851 [01:51<03:13, 10.47it/s]
2022-07-08 12:58:04,779 - INFO - tqdm - coref_precision: 0.9443, coref_recall: 0.8741, coref_f1: 0.9075, mention_recall: 0.9848, batch_loss: 0.0019, loss: 8.0705 ||:  32%|###1      | 903/2851 [02:01<03:26,  9.45it/s]
2022-07-08 12:58:14,836 - INFO - tqdm - coref_precision: 0.9456, coref_recall: 0.8759, coref_f1: 0.9090, mention_recall: 0.9852, batch_loss: 0.0000, loss: 7.7352 ||:  35%|###4      | 987/2851 [02:11<03:20,  9.29it/s]
2022-07-08 12:58:25,006 - INFO - tqdm - coref_precision: 0.9466, coref_recall: 0.8771, coref_f1: 0.9101, mention_recall: 0.9857, batch_loss: 0.4822, loss: 7.6444 ||:  37%|###7      | 1060/2851 [02:21<03:23,  8.80it/s]
2022-07-08 12:58:35,023 - INFO - tqdm - coref_precision: 0.9470, coref_recall: 0.8775, coref_f1: 0.9105, mention_recall: 0.9855, batch_loss: 5.0600, loss: 7.5804 ||:  40%|###9      | 1135/2851 [02:31<03:43,  7.68it/s]
2022-07-08 12:58:45,104 - INFO - tqdm - coref_precision: 0.9474, coref_recall: 0.8782, coref_f1: 0.9111, mention_recall: 0.9856, batch_loss: 26.9728, loss: 7.4839 ||:  42%|####2     | 1211/2851 [02:41<03:56,  6.92it/s]
2022-07-08 12:58:55,143 - INFO - tqdm - coref_precision: 0.9476, coref_recall: 0.8779, coref_f1: 0.9110, mention_recall: 0.9858, batch_loss: 0.0601, loss: 7.4621 ||:  45%|####5     | 1284/2851 [02:51<02:56,  8.87it/s]
2022-07-08 12:59:05,248 - INFO - tqdm - coref_precision: 0.9483, coref_recall: 0.8787, coref_f1: 0.9117, mention_recall: 0.9860, batch_loss: 17.1733, loss: 7.3285 ||:  48%|####7     | 1362/2851 [03:01<03:13,  7.68it/s]
2022-07-08 12:59:15,435 - INFO - tqdm - coref_precision: 0.9491, coref_recall: 0.8793, coref_f1: 0.9125, mention_recall: 0.9860, batch_loss: 72.4925, loss: 7.1545 ||:  51%|#####     | 1449/2851 [03:12<04:02,  5.77it/s]
2022-07-08 12:59:25,524 - INFO - tqdm - coref_precision: 0.9499, coref_recall: 0.8801, coref_f1: 0.9132, mention_recall: 0.9860, batch_loss: 2.5743, loss: 7.0540 ||:  53%|#####3    | 1525/2851 [03:22<02:33,  8.63it/s]
2022-07-08 12:59:35,560 - INFO - tqdm - coref_precision: 0.9495, coref_recall: 0.8799, coref_f1: 0.9129, mention_recall: 0.9860, batch_loss: 0.0051, loss: 7.1570 ||:  56%|#####6    | 1597/2851 [03:32<02:30,  8.33it/s]
2022-07-08 12:59:45,587 - INFO - tqdm - coref_precision: 0.9494, coref_recall: 0.8782, coref_f1: 0.9120, mention_recall: 0.9858, batch_loss: 3.1968, loss: 7.2333 ||:  58%|#####8    | 1659/2851 [03:42<02:49,  7.02it/s]
2022-07-08 12:59:55,653 - INFO - tqdm - coref_precision: 0.9492, coref_recall: 0.8778, coref_f1: 0.9116, mention_recall: 0.9859, batch_loss: 2.8285, loss: 7.2950 ||:  61%|######    | 1728/2851 [03:52<02:03,  9.07it/s]
2022-07-08 13:00:05,784 - INFO - tqdm - coref_precision: 0.9495, coref_recall: 0.8781, coref_f1: 0.9120, mention_recall: 0.9858, batch_loss: 1.3326, loss: 7.1839 ||:  63%|######3   | 1810/2851 [04:02<02:20,  7.43it/s]
2022-07-08 13:00:15,936 - INFO - tqdm - coref_precision: 0.9502, coref_recall: 0.8793, coref_f1: 0.9129, mention_recall: 0.9860, batch_loss: 10.8311, loss: 7.1084 ||:  66%|######6   | 1892/2851 [04:12<02:04,  7.67it/s]
2022-07-08 13:00:26,186 - INFO - tqdm - coref_precision: 0.9501, coref_recall: 0.8784, coref_f1: 0.9124, mention_recall: 0.9860, batch_loss: 17.8794, loss: 7.1104 ||:  69%|######8   | 1964/2851 [04:22<02:11,  6.75it/s]
2022-07-08 13:00:36,249 - INFO - tqdm - coref_precision: 0.9508, coref_recall: 0.8796, coref_f1: 0.9134, mention_recall: 0.9862, batch_loss: 0.0459, loss: 7.0061 ||:  72%|#######1  | 2042/2851 [04:32<01:28,  9.10it/s]
2022-07-08 13:00:46,255 - INFO - tqdm - coref_precision: 0.9514, coref_recall: 0.8806, coref_f1: 0.9142, mention_recall: 0.9862, batch_loss: 35.5441, loss: 6.9468 ||:  74%|#######4  | 2123/2851 [04:42<01:50,  6.57it/s]
2022-07-08 13:00:56,308 - INFO - tqdm - coref_precision: 0.9520, coref_recall: 0.8813, coref_f1: 0.9148, mention_recall: 0.9863, batch_loss: 2.8536, loss: 6.8555 ||:  77%|#######7  | 2205/2851 [04:53<01:31,  7.08it/s]
2022-07-08 13:01:06,408 - INFO - tqdm - coref_precision: 0.9519, coref_recall: 0.8814, coref_f1: 0.9148, mention_recall: 0.9863, batch_loss: 17.6198, loss: 6.8503 ||:  79%|#######9  | 2263/2851 [05:03<01:11,  8.28it/s]
2022-07-08 13:01:16,424 - INFO - tqdm - coref_precision: 0.9525, coref_recall: 0.8826, coref_f1: 0.9157, mention_recall: 0.9864, batch_loss: 0.0012, loss: 6.7810 ||:  82%|########2 | 2343/2851 [05:13<01:13,  6.93it/s]
2022-07-08 13:01:26,615 - INFO - tqdm - coref_precision: 0.9526, coref_recall: 0.8822, coref_f1: 0.9156, mention_recall: 0.9864, batch_loss: 8.2269, loss: 6.7695 ||:  85%|########5 | 2424/2851 [05:23<00:49,  8.59it/s]
2022-07-08 13:01:36,734 - INFO - tqdm - coref_precision: 0.9530, coref_recall: 0.8825, coref_f1: 0.9159, mention_recall: 0.9864, batch_loss: 45.9230, loss: 6.7111 ||:  88%|########7 | 2502/2851 [05:33<00:59,  5.91it/s]
2022-07-08 13:01:46,805 - INFO - tqdm - coref_precision: 0.9528, coref_recall: 0.8821, coref_f1: 0.9156, mention_recall: 0.9864, batch_loss: 16.1795, loss: 6.8271 ||:  90%|######### | 2568/2851 [05:43<00:49,  5.69it/s]
2022-07-08 13:01:56,995 - INFO - tqdm - coref_precision: 0.9532, coref_recall: 0.8829, coref_f1: 0.9162, mention_recall: 0.9866, batch_loss: 7.9749, loss: 6.7289 ||:  93%|#########2| 2649/2851 [05:53<00:26,  7.56it/s]
2022-07-08 13:02:07,314 - INFO - tqdm - coref_precision: 0.9535, coref_recall: 0.8832, coref_f1: 0.9165, mention_recall: 0.9866, batch_loss: 3.0463, loss: 6.7006 ||:  96%|#########5| 2725/2851 [06:04<00:22,  5.71it/s]
2022-07-08 13:02:17,701 - INFO - tqdm - coref_precision: 0.9535, coref_recall: 0.8829, coref_f1: 0.9164, mention_recall: 0.9865, batch_loss: 22.2744, loss: 6.6852 ||:  98%|#########8| 2801/2851 [06:14<00:08,  5.97it/s]
2022-07-08 13:02:22,134 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 0.0001, loss: 6.6474 ||: 100%|#########9| 2838/2851 [06:18<00:01,  8.11it/s]
2022-07-08 13:02:22,277 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 1.3120, loss: 6.6456 ||: 100%|#########9| 2839/2851 [06:18<00:01,  7.83it/s]
2022-07-08 13:02:22,380 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 0.0091, loss: 6.6432 ||: 100%|#########9| 2840/2851 [06:19<00:01,  8.21it/s]
2022-07-08 13:02:22,601 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 0.0070, loss: 6.6386 ||: 100%|#########9| 2842/2851 [06:19<00:01,  8.55it/s]
2022-07-08 13:02:22,784 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8834, coref_f1: 0.9168, mention_recall: 0.9865, batch_loss: 0.0161, loss: 6.6339 ||: 100%|#########9| 2844/2851 [06:19<00:00,  9.29it/s]
2022-07-08 13:02:23,009 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 12.5157, loss: 6.6360 ||: 100%|#########9| 2845/2851 [06:19<00:00,  7.57it/s]
2022-07-08 13:02:23,176 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 40.8356, loss: 6.6480 ||: 100%|#########9| 2846/2851 [06:19<00:00,  7.13it/s]
2022-07-08 13:02:23,326 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 0.0000, loss: 6.6433 ||: 100%|#########9| 2848/2851 [06:20<00:00,  8.75it/s]
2022-07-08 13:02:23,510 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8833, coref_f1: 0.9167, mention_recall: 0.9865, batch_loss: 0.0037, loss: 6.6386 ||: 100%|#########9| 2850/2851 [06:20<00:00,  9.42it/s]
2022-07-08 13:02:23,654 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8834, coref_f1: 0.9168, mention_recall: 0.9865, batch_loss: 0.5424, loss: 6.6365 ||: 100%|##########| 2851/2851 [06:20<00:00,  8.78it/s]
2022-07-08 13:02:23,655 - INFO - tqdm - coref_precision: 0.9538, coref_recall: 0.8834, coref_f1: 0.9168, mention_recall: 0.9865, batch_loss: 0.5424, loss: 6.6365 ||: 100%|##########| 2851/2851 [06:20<00:00,  7.50it/s]
2022-07-08 13:02:24,532 - INFO - allennlp.training.trainer - Validating
2022-07-08 13:02:24,533 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 13:02:34,672 - INFO - tqdm - coref_precision: 0.7599, coref_recall: 0.7185, coref_f1: 0.7385, mention_recall: 0.9614, batch_loss: 652.4310, loss: 83.7722 ||:  48%|####8     | 191/397 [00:10<00:17, 11.63it/s]
2022-07-08 13:02:44,147 - INFO - tqdm - coref_precision: 0.7719, coref_recall: 0.7285, coref_f1: 0.7492, mention_recall: 0.9630, batch_loss: 89.9073, loss: 79.2434 ||: 100%|##########| 397/397 [00:19<00:00, 20.24it/s]
2022-07-08 13:02:46,045 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 13:02:46,046 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.917  |     0.749
2022-07-08 13:02:46,046 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.954  |     0.772
2022-07-08 13:02:46,046 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.883  |     0.729
2022-07-08 13:02:46,046 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 13:02:46,046 - INFO - allennlp.training.callbacks.console_logger - loss               |     6.637  |    79.243
2022-07-08 13:02:46,046 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.987  |     0.963
2022-07-08 13:02:46,046 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 13:02:46,046 - INFO - allennlp.training.trainer - Epoch duration: 0:06:42.767318
2022-07-08 13:02:46,046 - INFO - allennlp.training.trainer - Estimated training time remaining: 15:03:45
2022-07-08 13:02:46,046 - INFO - allennlp.training.trainer - Epoch 16/149
2022-07-08 13:02:46,046 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 13:02:46,046 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 13:02:46,047 - INFO - allennlp.training.trainer - Training
2022-07-08 13:02:46,047 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 13:02:56,063 - INFO - tqdm - coref_precision: 0.9649, coref_recall: 0.9037, coref_f1: 0.9327, mention_recall: 0.9896, batch_loss: 0.0034, loss: 4.8882 ||:   3%|2         | 74/2851 [00:10<05:39,  8.18it/s]
2022-07-08 13:03:06,175 - INFO - tqdm - coref_precision: 0.9607, coref_recall: 0.9049, coref_f1: 0.9316, mention_recall: 0.9900, batch_loss: 2.0446, loss: 5.5058 ||:   5%|5         | 152/2851 [00:20<05:16,  8.52it/s]
2022-07-08 13:03:16,312 - INFO - tqdm - coref_precision: 0.9458, coref_recall: 0.8851, coref_f1: 0.9142, mention_recall: 0.9892, batch_loss: 0.0287, loss: 7.8426 ||:   8%|7         | 221/2851 [00:30<06:53,  6.37it/s]
2022-07-08 13:03:26,379 - INFO - tqdm - coref_precision: 0.9473, coref_recall: 0.8816, coref_f1: 0.9129, mention_recall: 0.9885, batch_loss: 4.6822, loss: 7.7671 ||:  10%|#         | 293/2851 [00:40<05:14,  8.14it/s]
2022-07-08 13:03:36,448 - INFO - tqdm - coref_precision: 0.9462, coref_recall: 0.8729, coref_f1: 0.9077, mention_recall: 0.9882, batch_loss: 59.0876, loss: 7.7062 ||:  13%|#2        | 357/2851 [00:50<06:41,  6.21it/s]
2022-07-08 13:03:46,889 - INFO - tqdm - coref_precision: 0.9471, coref_recall: 0.8738, coref_f1: 0.9085, mention_recall: 0.9881, batch_loss: 105.3909, loss: 7.4849 ||:  15%|#5        | 435/2851 [01:00<10:02,  4.01it/s]
2022-07-08 13:03:56,961 - INFO - tqdm - coref_precision: 0.9488, coref_recall: 0.8746, coref_f1: 0.9098, mention_recall: 0.9879, batch_loss: 53.2848, loss: 7.2587 ||:  18%|#7        | 506/2851 [01:10<08:57,  4.36it/s]
2022-07-08 13:04:07,049 - INFO - tqdm - coref_precision: 0.9514, coref_recall: 0.8789, coref_f1: 0.9133, mention_recall: 0.9881, batch_loss: 5.2117, loss: 6.8828 ||:  20%|##        | 583/2851 [01:21<05:15,  7.20it/s]
2022-07-08 13:04:17,190 - INFO - tqdm - coref_precision: 0.9480, coref_recall: 0.8780, coref_f1: 0.9112, mention_recall: 0.9876, batch_loss: 0.0099, loss: 7.7262 ||:  23%|##2       | 652/2851 [01:31<06:09,  5.95it/s]
2022-07-08 13:04:27,251 - INFO - tqdm - coref_precision: 0.9506, coref_recall: 0.8810, coref_f1: 0.9140, mention_recall: 0.9878, batch_loss: 0.0001, loss: 7.4330 ||:  26%|##5       | 729/2851 [01:41<04:14,  8.33it/s]
2022-07-08 13:04:37,425 - INFO - tqdm - coref_precision: 0.9517, coref_recall: 0.8836, coref_f1: 0.9159, mention_recall: 0.9880, batch_loss: 0.0928, loss: 7.1176 ||:  28%|##8       | 810/2851 [01:51<03:30,  9.70it/s]
2022-07-08 13:04:47,458 - INFO - tqdm - coref_precision: 0.9530, coref_recall: 0.8842, coref_f1: 0.9168, mention_recall: 0.9877, batch_loss: 25.8276, loss: 6.9878 ||:  31%|###1      | 892/2851 [02:01<03:55,  8.31it/s]
2022-07-08 13:04:57,556 - INFO - tqdm - coref_precision: 0.9540, coref_recall: 0.8843, coref_f1: 0.9173, mention_recall: 0.9880, batch_loss: 25.9843, loss: 6.7861 ||:  34%|###4      | 973/2851 [02:11<04:14,  7.37it/s]
2022-07-08 13:05:07,642 - INFO - tqdm - coref_precision: 0.9539, coref_recall: 0.8836, coref_f1: 0.9168, mention_recall: 0.9881, batch_loss: 4.2085, loss: 6.8802 ||:  37%|###6      | 1047/2851 [02:21<04:23,  6.85it/s]
2022-07-08 13:05:17,771 - INFO - tqdm - coref_precision: 0.9551, coref_recall: 0.8850, coref_f1: 0.9181, mention_recall: 0.9881, batch_loss: 0.0346, loss: 6.6899 ||:  39%|###8      | 1110/2851 [02:31<03:01,  9.58it/s]
2022-07-08 13:05:27,945 - INFO - tqdm - coref_precision: 0.9557, coref_recall: 0.8864, coref_f1: 0.9192, mention_recall: 0.9882, batch_loss: 16.4805, loss: 6.5816 ||:  42%|####1     | 1194/2851 [02:41<03:31,  7.82it/s]
2022-07-08 13:05:38,390 - INFO - tqdm - coref_precision: 0.9564, coref_recall: 0.8867, coref_f1: 0.9197, mention_recall: 0.9879, batch_loss: 44.6428, loss: 6.3516 ||:  45%|####4     | 1278/2851 [02:52<04:05,  6.40it/s]
2022-07-08 13:05:48,583 - INFO - tqdm - coref_precision: 0.9559, coref_recall: 0.8866, coref_f1: 0.9194, mention_recall: 0.9876, batch_loss: 72.3482, loss: 6.5371 ||:  47%|####7     | 1351/2851 [03:02<03:18,  7.57it/s]
2022-07-08 13:05:58,642 - INFO - tqdm - coref_precision: 0.9560, coref_recall: 0.8861, coref_f1: 0.9192, mention_recall: 0.9875, batch_loss: 0.0000, loss: 6.4515 ||:  50%|#####     | 1433/2851 [03:12<02:53,  8.19it/s]
2022-07-08 13:06:08,756 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8871, coref_f1: 0.9200, mention_recall: 0.9874, batch_loss: 0.3650, loss: 6.3943 ||:  53%|#####3    | 1520/2851 [03:22<02:06, 10.53it/s]
2022-07-08 13:06:18,847 - INFO - tqdm - coref_precision: 0.9567, coref_recall: 0.8868, coref_f1: 0.9199, mention_recall: 0.9875, batch_loss: 0.0002, loss: 6.4116 ||:  56%|#####6    | 1597/2851 [03:32<02:56,  7.12it/s]
2022-07-08 13:06:29,071 - INFO - tqdm - coref_precision: 0.9569, coref_recall: 0.8873, coref_f1: 0.9203, mention_recall: 0.9876, batch_loss: 0.1065, loss: 6.2834 ||:  59%|#####9    | 1683/2851 [03:43<02:30,  7.75it/s]
2022-07-08 13:06:39,156 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8864, coref_f1: 0.9196, mention_recall: 0.9877, batch_loss: 3.2314, loss: 6.3388 ||:  61%|######1   | 1753/2851 [03:53<03:12,  5.70it/s]
2022-07-08 13:06:49,229 - INFO - tqdm - coref_precision: 0.9570, coref_recall: 0.8873, coref_f1: 0.9203, mention_recall: 0.9876, batch_loss: 0.0051, loss: 6.2548 ||:  64%|######4   | 1838/2851 [04:03<01:59,  8.45it/s]
2022-07-08 13:06:59,334 - INFO - tqdm - coref_precision: 0.9556, coref_recall: 0.8853, coref_f1: 0.9186, mention_recall: 0.9873, batch_loss: 13.7374, loss: 6.5017 ||:  67%|######7   | 1914/2851 [04:13<02:05,  7.45it/s]
2022-07-08 13:07:09,507 - INFO - tqdm - coref_precision: 0.9553, coref_recall: 0.8848, coref_f1: 0.9182, mention_recall: 0.9873, batch_loss: 0.0139, loss: 6.5604 ||:  69%|######9   | 1980/2851 [04:23<02:03,  7.06it/s]
2022-07-08 13:07:19,774 - INFO - tqdm - coref_precision: 0.9559, coref_recall: 0.8858, coref_f1: 0.9190, mention_recall: 0.9874, batch_loss: 8.4003, loss: 6.4589 ||:  72%|#######2  | 2062/2851 [04:33<01:39,  7.93it/s]
2022-07-08 13:07:29,850 - INFO - tqdm - coref_precision: 0.9563, coref_recall: 0.8869, coref_f1: 0.9198, mention_recall: 0.9875, batch_loss: 0.0377, loss: 6.3537 ||:  75%|#######5  | 2140/2851 [04:43<01:39,  7.14it/s]
2022-07-08 13:07:39,851 - INFO - tqdm - coref_precision: 0.9567, coref_recall: 0.8874, coref_f1: 0.9202, mention_recall: 0.9875, batch_loss: 7.2855, loss: 6.3089 ||:  78%|#######7  | 2221/2851 [04:53<01:09,  9.01it/s]
2022-07-08 13:07:49,907 - INFO - tqdm - coref_precision: 0.9568, coref_recall: 0.8866, coref_f1: 0.9198, mention_recall: 0.9868, batch_loss: 18.8036, loss: 6.2857 ||:  81%|########  | 2299/2851 [05:03<01:21,  6.74it/s]
2022-07-08 13:08:00,287 - INFO - tqdm - coref_precision: 0.9557, coref_recall: 0.8851, coref_f1: 0.9185, mention_recall: 0.9867, batch_loss: 211.6786, loss: 6.4641 ||:  83%|########3 | 2368/2851 [05:14<03:14,  2.48it/s]
2022-07-08 13:08:10,338 - INFO - tqdm - coref_precision: 0.9559, coref_recall: 0.8855, coref_f1: 0.9188, mention_recall: 0.9867, batch_loss: 10.7042, loss: 6.4158 ||:  86%|########5 | 2448/2851 [05:24<00:45,  8.77it/s]
2022-07-08 13:08:20,494 - INFO - tqdm - coref_precision: 0.9556, coref_recall: 0.8855, coref_f1: 0.9187, mention_recall: 0.9868, batch_loss: 10.3416, loss: 6.4819 ||:  88%|########8 | 2512/2851 [05:34<00:54,  6.26it/s]
2022-07-08 13:08:30,525 - INFO - tqdm - coref_precision: 0.9558, coref_recall: 0.8857, coref_f1: 0.9189, mention_recall: 0.9869, batch_loss: 4.7307, loss: 6.4545 ||:  90%|######### | 2579/2851 [05:44<00:37,  7.30it/s]
2022-07-08 13:08:40,600 - INFO - tqdm - coref_precision: 0.9562, coref_recall: 0.8862, coref_f1: 0.9194, mention_recall: 0.9869, batch_loss: 0.0004, loss: 6.3904 ||:  93%|#########3| 2655/2851 [05:54<00:25,  7.78it/s]
2022-07-08 13:08:50,699 - INFO - tqdm - coref_precision: 0.9567, coref_recall: 0.8871, coref_f1: 0.9201, mention_recall: 0.9871, batch_loss: 0.0000, loss: 6.3187 ||:  96%|#########5| 2736/2851 [06:04<00:14,  7.69it/s]
2022-07-08 13:09:01,216 - INFO - tqdm - coref_precision: 0.9564, coref_recall: 0.8867, coref_f1: 0.9197, mention_recall: 0.9870, batch_loss: 178.0802, loss: 6.3685 ||:  99%|#########8| 2812/2851 [06:15<00:09,  4.16it/s]
2022-07-08 13:09:03,857 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9199, mention_recall: 0.9870, batch_loss: 0.0004, loss: 6.3409 ||: 100%|#########9| 2837/2851 [06:17<00:01,  9.92it/s]
2022-07-08 13:09:04,076 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 0.7746, loss: 6.3370 ||: 100%|#########9| 2839/2851 [06:18<00:01,  9.65it/s]
2022-07-08 13:09:04,286 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 1.8308, loss: 6.3351 ||: 100%|#########9| 2841/2851 [06:18<00:01,  9.61it/s]
2022-07-08 13:09:04,395 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 0.0000, loss: 6.3329 ||: 100%|#########9| 2842/2851 [06:18<00:00,  9.54it/s]
2022-07-08 13:09:04,517 - INFO - tqdm - coref_precision: 0.9567, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 0.1596, loss: 6.3307 ||: 100%|#########9| 2843/2851 [06:18<00:00,  9.23it/s]
2022-07-08 13:09:04,647 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 4.3158, loss: 6.3300 ||: 100%|#########9| 2844/2851 [06:18<00:00,  8.82it/s]
2022-07-08 13:09:04,750 - INFO - tqdm - coref_precision: 0.9567, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 0.0025, loss: 6.3278 ||: 100%|#########9| 2845/2851 [06:18<00:00,  9.02it/s]
2022-07-08 13:09:04,912 - INFO - tqdm - coref_precision: 0.9567, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 0.0221, loss: 6.3233 ||: 100%|#########9| 2847/2851 [06:18<00:00, 10.16it/s]
2022-07-08 13:09:05,125 - INFO - tqdm - coref_precision: 0.9567, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 0.0000, loss: 6.3190 ||: 100%|#########9| 2849/2851 [06:19<00:00,  9.85it/s]
2022-07-08 13:09:05,303 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 31.1060, loss: 6.3277 ||: 100%|#########9| 2850/2851 [06:19<00:00,  8.51it/s]
2022-07-08 13:09:05,443 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 1.8719, loss: 6.3261 ||: 100%|##########| 2851/2851 [06:19<00:00,  8.15it/s]
2022-07-08 13:09:05,444 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8870, coref_f1: 0.9200, mention_recall: 0.9870, batch_loss: 1.8719, loss: 6.3261 ||: 100%|##########| 2851/2851 [06:19<00:00,  7.51it/s]
2022-07-08 13:09:06,314 - INFO - allennlp.training.trainer - Validating
2022-07-08 13:09:06,315 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 13:09:16,613 - INFO - tqdm - coref_precision: 0.7638, coref_recall: 0.7153, coref_f1: 0.7386, mention_recall: 0.9592, batch_loss: 106.9471, loss: 82.4694 ||:  50%|####9     | 198/397 [00:10<00:13, 14.89it/s]
2022-07-08 13:09:25,855 - INFO - tqdm - coref_precision: 0.7761, coref_recall: 0.7256, coref_f1: 0.7498, mention_recall: 0.9620, batch_loss: 88.4720, loss: 79.0306 ||: 100%|##########| 397/397 [00:19<00:00, 21.02it/s]
2022-07-08 13:09:25,856 - INFO - tqdm - coref_precision: 0.7761, coref_recall: 0.7256, coref_f1: 0.7498, mention_recall: 0.9620, batch_loss: 88.4720, loss: 79.0306 ||: 100%|##########| 397/397 [00:19<00:00, 20.32it/s]
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.920  |     0.750
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.957  |     0.776
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.887  |     0.726
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger - loss               |     6.326  |    79.031
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.987  |     0.962
2022-07-08 13:09:27,757 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 13:09:27,757 - INFO - allennlp.training.trainer - Epoch duration: 0:06:41.711143
2022-07-08 13:09:27,757 - INFO - allennlp.training.trainer - Estimated training time remaining: 14:56:37
2022-07-08 13:09:27,757 - INFO - allennlp.training.trainer - Epoch 17/149
2022-07-08 13:09:27,757 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 13:09:27,758 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 13:09:27,758 - INFO - allennlp.training.trainer - Training
2022-07-08 13:09:27,759 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 13:09:37,932 - INFO - tqdm - coref_precision: 0.9706, coref_recall: 0.9247, coref_f1: 0.9468, mention_recall: 0.9921, batch_loss: 11.5095, loss: 4.3355 ||:   3%|2         | 83/2851 [00:10<06:56,  6.65it/s]
2022-07-08 13:09:48,003 - INFO - tqdm - coref_precision: 0.9686, coref_recall: 0.9174, coref_f1: 0.9420, mention_recall: 0.9900, batch_loss: 0.7908, loss: 3.8894 ||:   5%|5         | 144/2851 [00:20<07:45,  5.81it/s]
2022-07-08 13:09:58,084 - INFO - tqdm - coref_precision: 0.9681, coref_recall: 0.9061, coref_f1: 0.9356, mention_recall: 0.9882, batch_loss: 8.5796, loss: 4.5232 ||:   8%|7         | 222/2851 [00:30<06:47,  6.46it/s]
2022-07-08 13:10:08,156 - INFO - tqdm - coref_precision: 0.9539, coref_recall: 0.8852, coref_f1: 0.9175, mention_recall: 0.9837, batch_loss: 0.0137, loss: 6.4110 ||:  10%|9         | 285/2851 [00:40<06:05,  7.02it/s]
2022-07-08 13:10:18,228 - INFO - tqdm - coref_precision: 0.9578, coref_recall: 0.8925, coref_f1: 0.9233, mention_recall: 0.9840, batch_loss: 0.0263, loss: 5.6656 ||:  13%|#3        | 371/2851 [00:50<04:21,  9.50it/s]
2022-07-08 13:10:28,405 - INFO - tqdm - coref_precision: 0.9571, coref_recall: 0.8914, coref_f1: 0.9225, mention_recall: 0.9844, batch_loss: 161.5574, loss: 6.1407 ||:  16%|#5        | 444/2851 [01:00<07:38,  5.25it/s]
2022-07-08 13:10:38,581 - INFO - tqdm - coref_precision: 0.9584, coref_recall: 0.8911, coref_f1: 0.9228, mention_recall: 0.9852, batch_loss: 0.0001, loss: 5.9455 ||:  18%|#8        | 522/2851 [01:10<04:25,  8.78it/s]
2022-07-08 13:10:48,684 - INFO - tqdm - coref_precision: 0.9566, coref_recall: 0.8881, coref_f1: 0.9205, mention_recall: 0.9850, batch_loss: 0.0062, loss: 6.0545 ||:  21%|##        | 590/2851 [01:20<04:26,  8.49it/s]
2022-07-08 13:10:58,768 - INFO - tqdm - coref_precision: 0.9586, coref_recall: 0.8906, coref_f1: 0.9227, mention_recall: 0.9853, batch_loss: 0.0001, loss: 5.7583 ||:  24%|##3       | 670/2851 [01:31<05:31,  6.58it/s]
2022-07-08 13:11:08,861 - INFO - tqdm - coref_precision: 0.9599, coref_recall: 0.8921, coref_f1: 0.9241, mention_recall: 0.9858, batch_loss: 57.6702, loss: 5.6418 ||:  26%|##6       | 743/2851 [01:41<07:08,  4.92it/s]
2022-07-08 13:11:18,966 - INFO - tqdm - coref_precision: 0.9611, coref_recall: 0.8926, coref_f1: 0.9249, mention_recall: 0.9860, batch_loss: 0.0209, loss: 5.4092 ||:  29%|##9       | 830/2851 [01:51<04:22,  7.71it/s]
2022-07-08 13:11:29,055 - INFO - tqdm - coref_precision: 0.9617, coref_recall: 0.8930, coref_f1: 0.9254, mention_recall: 0.9863, batch_loss: 4.0756, loss: 5.2822 ||:  32%|###1      | 909/2851 [02:01<03:31,  9.16it/s]
2022-07-08 13:11:39,169 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8925, coref_f1: 0.9250, mention_recall: 0.9865, batch_loss: 0.0019, loss: 5.2185 ||:  35%|###4      | 990/2851 [02:11<03:11,  9.70it/s]
2022-07-08 13:11:49,425 - INFO - tqdm - coref_precision: 0.9610, coref_recall: 0.8920, coref_f1: 0.9245, mention_recall: 0.9864, batch_loss: 15.5870, loss: 5.2528 ||:  37%|###7      | 1066/2851 [02:21<05:38,  5.27it/s]
2022-07-08 13:11:59,469 - INFO - tqdm - coref_precision: 0.9623, coref_recall: 0.8935, coref_f1: 0.9259, mention_recall: 0.9864, batch_loss: 0.0000, loss: 5.1606 ||:  40%|####      | 1148/2851 [02:31<03:14,  8.74it/s]
2022-07-08 13:12:09,496 - INFO - tqdm - coref_precision: 0.9627, coref_recall: 0.8948, coref_f1: 0.9268, mention_recall: 0.9870, batch_loss: 0.4924, loss: 5.1089 ||:  43%|####2     | 1220/2851 [02:41<03:30,  7.73it/s]
2022-07-08 13:12:19,514 - INFO - tqdm - coref_precision: 0.9629, coref_recall: 0.8949, coref_f1: 0.9270, mention_recall: 0.9870, batch_loss: 6.2439, loss: 5.1510 ||:  45%|####5     | 1289/2851 [02:51<04:24,  5.91it/s]
2022-07-08 13:12:29,659 - INFO - tqdm - coref_precision: 0.9620, coref_recall: 0.8937, coref_f1: 0.9259, mention_recall: 0.9869, batch_loss: 16.6963, loss: 5.3229 ||:  48%|####7     | 1356/2851 [03:01<03:51,  6.45it/s]
2022-07-08 13:12:39,766 - INFO - tqdm - coref_precision: 0.9599, coref_recall: 0.8911, coref_f1: 0.9236, mention_recall: 0.9871, batch_loss: 0.1439, loss: 5.6627 ||:  50%|####9     | 1422/2851 [03:12<04:10,  5.69it/s]
2022-07-08 13:12:49,878 - INFO - tqdm - coref_precision: 0.9598, coref_recall: 0.8909, coref_f1: 0.9235, mention_recall: 0.9871, batch_loss: 1.4831, loss: 5.5855 ||:  52%|#####2    | 1494/2851 [03:22<04:14,  5.34it/s]
2022-07-08 13:13:00,126 - INFO - tqdm - coref_precision: 0.9602, coref_recall: 0.8923, coref_f1: 0.9244, mention_recall: 0.9873, batch_loss: 43.0583, loss: 5.5567 ||:  55%|#####5    | 1572/2851 [03:32<04:01,  5.30it/s]
2022-07-08 13:13:10,494 - INFO - tqdm - coref_precision: 0.9600, coref_recall: 0.8919, coref_f1: 0.9242, mention_recall: 0.9873, batch_loss: 348.2252, loss: 5.7210 ||:  58%|#####7    | 1645/2851 [03:42<04:29,  4.48it/s]
2022-07-08 13:13:20,572 - INFO - tqdm - coref_precision: 0.9600, coref_recall: 0.8923, coref_f1: 0.9244, mention_recall: 0.9874, batch_loss: 26.5092, loss: 5.7489 ||:  61%|######    | 1725/2851 [03:52<02:41,  6.96it/s]
2022-07-08 13:13:30,729 - INFO - tqdm - coref_precision: 0.9600, coref_recall: 0.8922, coref_f1: 0.9243, mention_recall: 0.9873, batch_loss: 2.7153, loss: 5.7218 ||:  63%|######3   | 1803/2851 [04:02<02:18,  7.57it/s]
2022-07-08 13:13:40,751 - INFO - tqdm - coref_precision: 0.9606, coref_recall: 0.8931, coref_f1: 0.9251, mention_recall: 0.9875, batch_loss: 1.2261, loss: 5.6265 ||:  66%|######6   | 1885/2851 [04:12<02:07,  7.57it/s]
2022-07-08 13:13:50,851 - INFO - tqdm - coref_precision: 0.9609, coref_recall: 0.8933, coref_f1: 0.9253, mention_recall: 0.9876, batch_loss: 1.3896, loss: 5.5900 ||:  69%|######8   | 1963/2851 [04:23<01:44,  8.48it/s]
2022-07-08 13:14:01,179 - INFO - tqdm - coref_precision: 0.9602, coref_recall: 0.8927, coref_f1: 0.9247, mention_recall: 0.9876, batch_loss: 83.4933, loss: 5.6438 ||:  72%|#######1  | 2044/2851 [04:33<02:43,  4.93it/s]
2022-07-08 13:14:11,383 - INFO - tqdm - coref_precision: 0.9604, coref_recall: 0.8932, coref_f1: 0.9251, mention_recall: 0.9877, batch_loss: 1.4527, loss: 5.5959 ||:  74%|#######4  | 2123/2851 [04:43<01:38,  7.39it/s]
2022-07-08 13:14:21,582 - INFO - tqdm - coref_precision: 0.9605, coref_recall: 0.8936, coref_f1: 0.9254, mention_recall: 0.9878, batch_loss: 8.9912, loss: 5.5495 ||:  77%|#######7  | 2202/2851 [04:53<01:20,  8.10it/s]
2022-07-08 13:14:31,887 - INFO - tqdm - coref_precision: 0.9607, coref_recall: 0.8939, coref_f1: 0.9256, mention_recall: 0.9878, batch_loss: 15.8003, loss: 5.5140 ||:  80%|########  | 2283/2851 [05:04<01:15,  7.48it/s]
2022-07-08 13:14:41,982 - INFO - tqdm - coref_precision: 0.9610, coref_recall: 0.8944, coref_f1: 0.9259, mention_recall: 0.9880, batch_loss: 0.2774, loss: 5.4958 ||:  82%|########2 | 2346/2851 [05:14<00:58,  8.66it/s]
2022-07-08 13:14:52,124 - INFO - tqdm - coref_precision: 0.9614, coref_recall: 0.8948, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.4272 ||:  85%|########5 | 2428/2851 [05:24<00:42, 10.03it/s]
2022-07-08 13:15:02,266 - INFO - tqdm - coref_precision: 0.9612, coref_recall: 0.8938, coref_f1: 0.9257, mention_recall: 0.9880, batch_loss: 16.7482, loss: 5.4719 ||:  88%|########7 | 2501/2851 [05:34<00:51,  6.81it/s]
2022-07-08 13:15:12,469 - INFO - tqdm - coref_precision: 0.9595, coref_recall: 0.8927, coref_f1: 0.9243, mention_recall: 0.9879, batch_loss: 0.0440, loss: 5.8070 ||:  90%|########9 | 2565/2851 [05:44<00:36,  7.82it/s]
2022-07-08 13:15:22,525 - INFO - tqdm - coref_precision: 0.9596, coref_recall: 0.8930, coref_f1: 0.9245, mention_recall: 0.9879, batch_loss: 1.9692, loss: 5.7960 ||:  93%|#########2| 2644/2851 [05:54<00:29,  6.98it/s]
2022-07-08 13:15:32,582 - INFO - tqdm - coref_precision: 0.9586, coref_recall: 0.8912, coref_f1: 0.9231, mention_recall: 0.9874, batch_loss: 0.1574, loss: 6.0189 ||:  95%|#########5| 2713/2851 [06:04<00:35,  3.90it/s]
2022-07-08 13:15:42,751 - INFO - tqdm - coref_precision: 0.9585, coref_recall: 0.8911, coref_f1: 0.9230, mention_recall: 0.9875, batch_loss: 7.8829, loss: 6.0658 ||:  98%|#########7| 2786/2851 [06:14<00:10,  6.29it/s]
2022-07-08 13:15:48,941 - INFO - tqdm - coref_precision: 0.9586, coref_recall: 0.8909, coref_f1: 0.9230, mention_recall: 0.9875, batch_loss: 0.3007, loss: 6.0165 ||: 100%|#########9| 2837/2851 [06:21<00:01,  7.98it/s]
2022-07-08 13:15:49,122 - INFO - tqdm - coref_precision: 0.9586, coref_recall: 0.8908, coref_f1: 0.9229, mention_recall: 0.9875, batch_loss: 8.7192, loss: 6.0174 ||: 100%|#########9| 2838/2851 [06:21<00:01,  7.20it/s]
2022-07-08 13:15:49,266 - INFO - tqdm - coref_precision: 0.9586, coref_recall: 0.8909, coref_f1: 0.9230, mention_recall: 0.9875, batch_loss: 10.1425, loss: 6.0189 ||: 100%|#########9| 2839/2851 [06:21<00:01,  7.13it/s]
2022-07-08 13:15:49,441 - INFO - tqdm - coref_precision: 0.9586, coref_recall: 0.8909, coref_f1: 0.9230, mention_recall: 0.9875, batch_loss: 0.0077, loss: 6.0146 ||: 100%|#########9| 2841/2851 [06:21<00:01,  8.48it/s]
2022-07-08 13:15:49,606 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8910, coref_f1: 0.9230, mention_recall: 0.9875, batch_loss: 3.1998, loss: 6.0136 ||: 100%|#########9| 2842/2851 [06:21<00:01,  7.76it/s]
2022-07-08 13:15:49,739 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8910, coref_f1: 0.9231, mention_recall: 0.9875, batch_loss: 0.8585, loss: 6.0118 ||: 100%|#########9| 2843/2851 [06:21<00:01,  7.71it/s]
2022-07-08 13:15:49,919 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8910, coref_f1: 0.9230, mention_recall: 0.9875, batch_loss: 0.0001, loss: 6.0076 ||: 100%|#########9| 2845/2851 [06:22<00:00,  8.83it/s]
2022-07-08 13:15:50,031 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8910, coref_f1: 0.9231, mention_recall: 0.9875, batch_loss: 0.0001, loss: 6.0055 ||: 100%|#########9| 2846/2851 [06:22<00:00,  8.86it/s]
2022-07-08 13:15:50,161 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8910, coref_f1: 0.9231, mention_recall: 0.9875, batch_loss: 0.0022, loss: 6.0034 ||: 100%|#########9| 2847/2851 [06:22<00:00,  8.54it/s]
2022-07-08 13:15:50,340 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8910, coref_f1: 0.9231, mention_recall: 0.9875, batch_loss: 0.0002, loss: 5.9992 ||: 100%|#########9| 2849/2851 [06:22<00:00,  9.45it/s]
2022-07-08 13:15:50,491 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8911, coref_f1: 0.9231, mention_recall: 0.9875, batch_loss: 0.0000, loss: 5.9949 ||: 100%|##########| 2851/2851 [06:22<00:00, 10.57it/s]
2022-07-08 13:15:50,492 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8911, coref_f1: 0.9231, mention_recall: 0.9875, batch_loss: 0.0000, loss: 5.9949 ||: 100%|##########| 2851/2851 [06:22<00:00,  7.45it/s]
2022-07-08 13:15:51,367 - INFO - allennlp.training.trainer - Validating
2022-07-08 13:15:51,368 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 13:16:01,539 - INFO - tqdm - coref_precision: 0.7688, coref_recall: 0.7293, coref_f1: 0.7482, mention_recall: 0.9634, batch_loss: 284.2030, loss: 83.9384 ||:  48%|####8     | 192/397 [00:10<00:09, 22.66it/s]
2022-07-08 13:16:10,893 - INFO - tqdm - coref_precision: 0.7725, coref_recall: 0.7279, coref_f1: 0.7492, mention_recall: 0.9609, batch_loss: 44.4372, loss: 79.2492 ||: 100%|#########9| 396/397 [00:19<00:00, 22.61it/s]
2022-07-08 13:16:10,909 - INFO - tqdm - coref_precision: 0.7725, coref_recall: 0.7279, coref_f1: 0.7492, mention_recall: 0.9609, batch_loss: 0.0000, loss: 79.0496 ||: 100%|##########| 397/397 [00:19<00:00, 20.32it/s]
2022-07-08 13:16:12,814 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 13:16:12,815 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.923  |     0.749
2022-07-08 13:16:12,815 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.959  |     0.772
2022-07-08 13:16:12,815 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.891  |     0.728
2022-07-08 13:16:12,815 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 13:16:12,815 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.995  |    79.050
2022-07-08 13:16:12,815 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.987  |     0.961
2022-07-08 13:16:12,815 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 13:16:12,815 - INFO - allennlp.training.trainer - Epoch duration: 0:06:45.057733
2022-07-08 13:16:12,815 - INFO - allennlp.training.trainer - Estimated training time remaining: 14:49:57
2022-07-08 13:16:12,815 - INFO - allennlp.training.trainer - Epoch 18/149
2022-07-08 13:16:12,815 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 13:16:12,815 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 13:16:12,816 - INFO - allennlp.training.trainer - Training
2022-07-08 13:16:12,817 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 13:16:22,834 - INFO - tqdm - coref_precision: 0.9257, coref_recall: 0.8852, coref_f1: 0.9049, mention_recall: 0.9877, batch_loss: 0.0389, loss: 12.0148 ||:   2%|2         | 66/2851 [00:10<04:55,  9.43it/s]
2022-07-08 13:16:33,047 - INFO - tqdm - coref_precision: 0.9441, coref_recall: 0.8913, coref_f1: 0.9166, mention_recall: 0.9876, batch_loss: 19.6531, loss: 9.2013 ||:   5%|5         | 144/2851 [00:20<06:23,  7.05it/s]
2022-07-08 13:16:43,120 - INFO - tqdm - coref_precision: 0.9479, coref_recall: 0.8899, coref_f1: 0.9175, mention_recall: 0.9882, batch_loss: 0.0007, loss: 8.1883 ||:   8%|7         | 219/2851 [00:30<04:26,  9.89it/s]
2022-07-08 13:16:53,162 - INFO - tqdm - coref_precision: 0.9522, coref_recall: 0.8923, coref_f1: 0.9209, mention_recall: 0.9872, batch_loss: 25.4764, loss: 6.9228 ||:  10%|#         | 297/2851 [00:40<06:04,  7.01it/s]
2022-07-08 13:17:03,286 - INFO - tqdm - coref_precision: 0.9574, coref_recall: 0.8963, coref_f1: 0.9254, mention_recall: 0.9876, batch_loss: 17.5498, loss: 6.0876 ||:  13%|#3        | 384/2851 [00:50<04:08,  9.93it/s]
2022-07-08 13:17:13,346 - INFO - tqdm - coref_precision: 0.9571, coref_recall: 0.8932, coref_f1: 0.9236, mention_recall: 0.9872, batch_loss: 0.0003, loss: 6.2014 ||:  16%|#5        | 456/2851 [01:00<05:07,  7.80it/s]
2022-07-08 13:17:23,431 - INFO - tqdm - coref_precision: 0.9596, coref_recall: 0.8933, coref_f1: 0.9248, mention_recall: 0.9865, batch_loss: 21.2079, loss: 5.8613 ||:  19%|#8        | 536/2851 [01:10<06:30,  5.92it/s]
2022-07-08 13:17:33,495 - INFO - tqdm - coref_precision: 0.9609, coref_recall: 0.8939, coref_f1: 0.9257, mention_recall: 0.9867, batch_loss: 0.0000, loss: 5.6767 ||:  21%|##1       | 607/2851 [01:20<04:29,  8.33it/s]
2022-07-08 13:17:43,639 - INFO - tqdm - coref_precision: 0.9595, coref_recall: 0.8919, coref_f1: 0.9240, mention_recall: 0.9864, batch_loss: 0.0781, loss: 5.8043 ||:  24%|##3       | 681/2851 [01:30<03:52,  9.32it/s]
2022-07-08 13:17:53,643 - INFO - tqdm - coref_precision: 0.9599, coref_recall: 0.8930, coref_f1: 0.9248, mention_recall: 0.9862, batch_loss: 3.6848, loss: 5.8261 ||:  27%|##6       | 762/2851 [01:40<04:32,  7.65it/s]
2022-07-08 13:18:03,833 - INFO - tqdm - coref_precision: 0.9594, coref_recall: 0.8902, coref_f1: 0.9231, mention_recall: 0.9861, batch_loss: 4.8855, loss: 5.9546 ||:  29%|##8       | 825/2851 [01:51<05:20,  6.32it/s]
2022-07-08 13:18:14,026 - INFO - tqdm - coref_precision: 0.9609, coref_recall: 0.8919, coref_f1: 0.9247, mention_recall: 0.9864, batch_loss: 26.7791, loss: 5.6395 ||:  32%|###1      | 910/2851 [02:01<04:41,  6.89it/s]
2022-07-08 13:18:24,057 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8933, coref_f1: 0.9260, mention_recall: 0.9865, batch_loss: 3.2048, loss: 5.3249 ||:  35%|###4      | 992/2851 [02:11<03:36,  8.61it/s]
2022-07-08 13:18:34,104 - INFO - tqdm - coref_precision: 0.9599, coref_recall: 0.8917, coref_f1: 0.9241, mention_recall: 0.9867, batch_loss: 0.7548, loss: 5.7370 ||:  37%|###7      | 1059/2851 [02:21<03:56,  7.57it/s]
2022-07-08 13:18:44,173 - INFO - tqdm - coref_precision: 0.9614, coref_recall: 0.8934, coref_f1: 0.9257, mention_recall: 0.9871, batch_loss: 10.9520, loss: 5.5311 ||:  40%|####      | 1143/2851 [02:31<04:09,  6.85it/s]
2022-07-08 13:18:54,316 - INFO - tqdm - coref_precision: 0.9616, coref_recall: 0.8928, coref_f1: 0.9255, mention_recall: 0.9872, batch_loss: 5.5914, loss: 5.4342 ||:  42%|####2     | 1209/2851 [02:41<08:17,  3.30it/s]
2022-07-08 13:19:04,469 - INFO - tqdm - coref_precision: 0.9594, coref_recall: 0.8889, coref_f1: 0.9223, mention_recall: 0.9860, batch_loss: 11.0327, loss: 5.6688 ||:  45%|####4     | 1276/2851 [02:51<02:46,  9.44it/s]
2022-07-08 13:19:14,514 - INFO - tqdm - coref_precision: 0.9596, coref_recall: 0.8893, coref_f1: 0.9226, mention_recall: 0.9862, batch_loss: 0.0040, loss: 5.6329 ||:  48%|####7     | 1359/2851 [03:01<03:22,  7.36it/s]
2022-07-08 13:19:24,670 - INFO - tqdm - coref_precision: 0.9588, coref_recall: 0.8884, coref_f1: 0.9217, mention_recall: 0.9862, batch_loss: 3.3036, loss: 5.8175 ||:  50%|####9     | 1423/2851 [03:11<03:41,  6.45it/s]
2022-07-08 13:19:34,814 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8886, coref_f1: 0.9218, mention_recall: 0.9864, batch_loss: 0.0007, loss: 5.7944 ||:  53%|#####2    | 1502/2851 [03:21<02:25,  9.26it/s]
2022-07-08 13:19:45,107 - INFO - tqdm - coref_precision: 0.9572, coref_recall: 0.8855, coref_f1: 0.9195, mention_recall: 0.9860, batch_loss: 179.2496, loss: 6.2799 ||:  55%|#####4    | 1567/2851 [03:32<05:57,  3.60it/s]
2022-07-08 13:19:55,247 - INFO - tqdm - coref_precision: 0.9578, coref_recall: 0.8862, coref_f1: 0.9201, mention_recall: 0.9861, batch_loss: 31.8707, loss: 6.0972 ||:  58%|#####7    | 1649/2851 [03:42<02:58,  6.72it/s]
2022-07-08 13:20:05,284 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8877, coref_f1: 0.9213, mention_recall: 0.9863, batch_loss: 0.0111, loss: 5.9544 ||:  61%|######    | 1730/2851 [03:52<02:04,  8.99it/s]
2022-07-08 13:20:15,462 - INFO - tqdm - coref_precision: 0.9594, coref_recall: 0.8890, coref_f1: 0.9224, mention_recall: 0.9865, batch_loss: -0.0000, loss: 5.8270 ||:  64%|######3   | 1815/2851 [04:02<01:54,  9.05it/s]
2022-07-08 13:20:25,578 - INFO - tqdm - coref_precision: 0.9598, coref_recall: 0.8897, coref_f1: 0.9229, mention_recall: 0.9866, batch_loss: 0.0012, loss: 5.7257 ||:  66%|######6   | 1892/2851 [04:12<02:22,  6.72it/s]
2022-07-08 13:20:35,661 - INFO - tqdm - coref_precision: 0.9603, coref_recall: 0.8910, coref_f1: 0.9239, mention_recall: 0.9869, batch_loss: 18.5248, loss: 5.6307 ||:  69%|######9   | 1973/2851 [04:22<02:57,  4.95it/s]
2022-07-08 13:20:45,694 - INFO - tqdm - coref_precision: 0.9607, coref_recall: 0.8908, coref_f1: 0.9239, mention_recall: 0.9870, batch_loss: 0.0602, loss: 5.6077 ||:  72%|#######1  | 2048/2851 [04:32<01:45,  7.62it/s]
2022-07-08 13:20:55,801 - INFO - tqdm - coref_precision: 0.9612, coref_recall: 0.8916, coref_f1: 0.9245, mention_recall: 0.9870, batch_loss: 14.9873, loss: 5.5148 ||:  75%|#######4  | 2131/2851 [04:42<01:55,  6.22it/s]
2022-07-08 13:21:05,858 - INFO - tqdm - coref_precision: 0.9614, coref_recall: 0.8923, coref_f1: 0.9251, mention_recall: 0.9870, batch_loss: 0.0002, loss: 5.4582 ||:  77%|#######7  | 2209/2851 [04:53<01:13,  8.77it/s]
2022-07-08 13:21:15,878 - INFO - tqdm - coref_precision: 0.9609, coref_recall: 0.8917, coref_f1: 0.9245, mention_recall: 0.9869, batch_loss: 0.0000, loss: 5.5318 ||:  80%|#######9  | 2275/2851 [05:03<01:20,  7.14it/s]
2022-07-08 13:21:26,003 - INFO - tqdm - coref_precision: 0.9612, coref_recall: 0.8922, coref_f1: 0.9249, mention_recall: 0.9870, batch_loss: 0.0097, loss: 5.4851 ||:  82%|########2 | 2352/2851 [05:13<01:15,  6.63it/s]
2022-07-08 13:21:36,103 - INFO - tqdm - coref_precision: 0.9613, coref_recall: 0.8924, coref_f1: 0.9251, mention_recall: 0.9872, batch_loss: 19.9937, loss: 5.4501 ||:  85%|########5 | 2430/2851 [05:23<01:07,  6.22it/s]
2022-07-08 13:21:46,175 - INFO - tqdm - coref_precision: 0.9618, coref_recall: 0.8926, coref_f1: 0.9254, mention_recall: 0.9872, batch_loss: 0.0006, loss: 5.3631 ||:  88%|########8 | 2513/2851 [05:33<00:36,  9.24it/s]
2022-07-08 13:21:56,227 - INFO - tqdm - coref_precision: 0.9611, coref_recall: 0.8916, coref_f1: 0.9246, mention_recall: 0.9872, batch_loss: 11.2488, loss: 5.5272 ||:  90%|######### | 2576/2851 [05:43<00:43,  6.32it/s]
2022-07-08 13:22:06,309 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8923, coref_f1: 0.9251, mention_recall: 0.9874, batch_loss: 5.2509, loss: 5.4377 ||:  93%|#########3| 2657/2851 [05:53<00:26,  7.41it/s]
2022-07-08 13:22:16,395 - INFO - tqdm - coref_precision: 0.9617, coref_recall: 0.8927, coref_f1: 0.9254, mention_recall: 0.9874, batch_loss: 0.0002, loss: 5.3603 ||:  96%|#########6| 2740/2851 [06:03<00:13,  7.97it/s]
2022-07-08 13:22:26,486 - INFO - tqdm - coref_precision: 0.9614, coref_recall: 0.8923, coref_f1: 0.9250, mention_recall: 0.9874, batch_loss: 0.0002, loss: 5.3877 ||:  99%|#########8| 2816/2851 [06:13<00:05,  6.36it/s]
2022-07-08 13:22:29,293 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9252, mention_recall: 0.9875, batch_loss: 6.5496, loss: 5.3755 ||: 100%|#########9| 2837/2851 [06:16<00:01,  7.79it/s]
2022-07-08 13:22:29,413 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9875, batch_loss: 0.7192, loss: 5.3739 ||: 100%|#########9| 2838/2851 [06:16<00:01,  7.91it/s]
2022-07-08 13:22:29,577 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9875, batch_loss: 3.8398, loss: 5.3733 ||: 100%|#########9| 2839/2851 [06:16<00:01,  7.35it/s]
2022-07-08 13:22:29,717 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9874, batch_loss: 0.1187, loss: 5.3715 ||: 100%|#########9| 2840/2851 [06:16<00:01,  7.30it/s]
2022-07-08 13:22:29,871 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9874, batch_loss: 0.0000, loss: 5.3677 ||: 100%|#########9| 2842/2851 [06:17<00:00,  9.01it/s]
2022-07-08 13:22:29,995 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9874, batch_loss: 3.2457, loss: 5.3669 ||: 100%|#########9| 2843/2851 [06:17<00:00,  8.77it/s]
2022-07-08 13:22:30,208 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9874, batch_loss: 2.1325, loss: 5.3639 ||: 100%|#########9| 2845/2851 [06:17<00:00,  9.01it/s]
2022-07-08 13:22:30,442 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9874, batch_loss: 0.2180, loss: 5.3616 ||: 100%|#########9| 2847/2851 [06:17<00:00,  8.83it/s]
2022-07-08 13:22:30,679 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9252, mention_recall: 0.9874, batch_loss: 25.9398, loss: 5.3669 ||: 100%|#########9| 2849/2851 [06:17<00:00,  8.70it/s]
2022-07-08 13:22:30,882 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9874, batch_loss: 4.3119, loss: 5.3646 ||: 100%|##########| 2851/2851 [06:18<00:00,  9.05it/s]
2022-07-08 13:22:30,883 - INFO - tqdm - coref_precision: 0.9615, coref_recall: 0.8926, coref_f1: 0.9253, mention_recall: 0.9874, batch_loss: 4.3119, loss: 5.3646 ||: 100%|##########| 2851/2851 [06:18<00:00,  7.54it/s]
2022-07-08 13:22:31,759 - INFO - allennlp.training.trainer - Validating
2022-07-08 13:22:31,760 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 13:22:41,791 - INFO - tqdm - coref_precision: 0.7837, coref_recall: 0.7280, coref_f1: 0.7546, mention_recall: 0.9624, batch_loss: 127.0463, loss: 86.3559 ||:  52%|#####2    | 208/397 [00:10<00:08, 23.61it/s]
2022-07-08 13:22:51,346 - INFO - tqdm - coref_precision: 0.7779, coref_recall: 0.7282, coref_f1: 0.7520, mention_recall: 0.9651, batch_loss: 7.9534, loss: 87.6207 ||: 100%|##########| 397/397 [00:19<00:00, 27.09it/s]
2022-07-08 13:22:51,347 - INFO - tqdm - coref_precision: 0.7779, coref_recall: 0.7282, coref_f1: 0.7520, mention_recall: 0.9651, batch_loss: 7.9534, loss: 87.6207 ||: 100%|##########| 397/397 [00:19<00:00, 20.27it/s]
2022-07-08 13:22:53,071 - INFO - allennlp.training.checkpointer - Best validation performance so far. Copying weights to 'resulting_models/best.th'.
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.925  |     0.752
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.961  |     0.778
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.893  |     0.728
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.365  |    87.621
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.987  |     0.965
2022-07-08 13:22:54,391 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 13:22:54,391 - INFO - allennlp.training.trainer - Epoch duration: 0:06:41.575995
2022-07-08 13:22:54,391 - INFO - allennlp.training.trainer - Estimated training time remaining: 14:42:52
2022-07-08 13:22:54,391 - INFO - allennlp.training.trainer - Epoch 19/149
2022-07-08 13:22:54,391 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 13:22:54,392 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 13:22:54,393 - INFO - allennlp.training.trainer - Training
2022-07-08 13:22:54,393 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 13:23:04,508 - INFO - tqdm - coref_precision: 0.9456, coref_recall: 0.8842, coref_f1: 0.9136, mention_recall: 0.9913, batch_loss: 0.7819, loss: 6.5205 ||:   3%|2         | 73/2851 [00:10<05:03,  9.14it/s]
2022-07-08 13:23:14,641 - INFO - tqdm - coref_precision: 0.9273, coref_recall: 0.8663, coref_f1: 0.8954, mention_recall: 0.9896, batch_loss: 4.6532, loss: 11.3816 ||:   4%|4         | 122/2851 [00:20<05:03,  8.98it/s]
2022-07-08 13:23:24,722 - INFO - tqdm - coref_precision: 0.9392, coref_recall: 0.8745, coref_f1: 0.9052, mention_recall: 0.9907, batch_loss: 0.0942, loss: 9.3912 ||:   7%|6         | 192/2851 [00:30<06:28,  6.85it/s]
2022-07-08 13:23:34,947 - INFO - tqdm - coref_precision: 0.9474, coref_recall: 0.8859, coref_f1: 0.9152, mention_recall: 0.9906, batch_loss: 2.6251, loss: 8.1640 ||:   9%|9         | 269/2851 [00:40<05:54,  7.29it/s]
2022-07-08 13:23:45,072 - INFO - tqdm - coref_precision: 0.9518, coref_recall: 0.8897, coref_f1: 0.9192, mention_recall: 0.9898, batch_loss: 0.3286, loss: 7.1746 ||:  13%|#2        | 357/2851 [00:50<04:23,  9.46it/s]
2022-07-08 13:23:55,123 - INFO - tqdm - coref_precision: 0.9549, coref_recall: 0.8920, coref_f1: 0.9219, mention_recall: 0.9897, batch_loss: 0.0000, loss: 6.4929 ||:  15%|#5        | 436/2851 [01:00<05:07,  7.85it/s]
2022-07-08 13:24:05,173 - INFO - tqdm - coref_precision: 0.9570, coref_recall: 0.8945, coref_f1: 0.9242, mention_recall: 0.9888, batch_loss: 15.8165, loss: 6.2782 ||:  18%|#8        | 517/2851 [01:10<04:21,  8.94it/s]
2022-07-08 13:24:15,308 - INFO - tqdm - coref_precision: 0.9581, coref_recall: 0.8970, coref_f1: 0.9261, mention_recall: 0.9892, batch_loss: 4.2129, loss: 5.9397 ||:  21%|##        | 592/2851 [01:20<04:48,  7.84it/s]
2022-07-08 13:24:25,334 - INFO - tqdm - coref_precision: 0.9590, coref_recall: 0.8948, coref_f1: 0.9253, mention_recall: 0.9883, batch_loss: 0.1278, loss: 5.9241 ||:  23%|##3       | 668/2851 [01:30<05:58,  6.09it/s]
2022-07-08 13:24:35,362 - INFO - tqdm - coref_precision: 0.9590, coref_recall: 0.8937, coref_f1: 0.9248, mention_recall: 0.9881, batch_loss: 0.0233, loss: 5.8944 ||:  26%|##5       | 739/2851 [01:40<04:43,  7.44it/s]
2022-07-08 13:24:45,749 - INFO - tqdm - coref_precision: 0.9606, coref_recall: 0.8960, coref_f1: 0.9268, mention_recall: 0.9880, batch_loss: 110.0355, loss: 5.5790 ||:  29%|##8       | 825/2851 [01:51<05:40,  5.95it/s]
2022-07-08 13:24:55,868 - INFO - tqdm - coref_precision: 0.9613, coref_recall: 0.8963, coref_f1: 0.9273, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.4458 ||:  32%|###1      | 905/2851 [02:01<03:17,  9.84it/s]
2022-07-08 13:25:05,995 - INFO - tqdm - coref_precision: 0.9587, coref_recall: 0.8937, coref_f1: 0.9247, mention_recall: 0.9881, batch_loss: 0.0001, loss: 5.8428 ||:  34%|###3      | 967/2851 [02:11<07:28,  4.20it/s]
2022-07-08 13:25:16,032 - INFO - tqdm - coref_precision: 0.9594, coref_recall: 0.8938, coref_f1: 0.9251, mention_recall: 0.9882, batch_loss: 0.0001, loss: 5.7890 ||:  37%|###6      | 1044/2851 [02:21<02:49, 10.66it/s]
2022-07-08 13:25:26,151 - INFO - tqdm - coref_precision: 0.9607, coref_recall: 0.8960, coref_f1: 0.9268, mention_recall: 0.9883, batch_loss: 0.0121, loss: 5.5523 ||:  40%|###9      | 1132/2851 [02:31<02:47, 10.27it/s]
2022-07-08 13:25:36,274 - INFO - tqdm - coref_precision: 0.9611, coref_recall: 0.8967, coref_f1: 0.9274, mention_recall: 0.9884, batch_loss: 0.4727, loss: 5.5118 ||:  42%|####2     | 1208/2851 [02:41<03:53,  7.03it/s]
2022-07-08 13:25:46,422 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8968, coref_f1: 0.9279, mention_recall: 0.9884, batch_loss: 0.0000, loss: 5.3562 ||:  45%|####5     | 1286/2851 [02:52<03:05,  8.42it/s]
2022-07-08 13:25:56,494 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8962, coref_f1: 0.9276, mention_recall: 0.9883, batch_loss: 0.0011, loss: 5.3141 ||:  48%|####7     | 1362/2851 [03:02<02:45,  8.99it/s]
2022-07-08 13:26:06,671 - INFO - tqdm - coref_precision: 0.9618, coref_recall: 0.8953, coref_f1: 0.9269, mention_recall: 0.9883, batch_loss: 0.1005, loss: 5.3129 ||:  51%|#####     | 1440/2851 [03:12<02:22,  9.88it/s]
2022-07-08 13:26:16,762 - INFO - tqdm - coref_precision: 0.9611, coref_recall: 0.8941, coref_f1: 0.9259, mention_recall: 0.9883, batch_loss: 0.0161, loss: 5.3982 ||:  53%|#####3    | 1516/2851 [03:22<02:37,  8.47it/s]
2022-07-08 13:26:26,879 - INFO - tqdm - coref_precision: 0.9621, coref_recall: 0.8946, coref_f1: 0.9266, mention_recall: 0.9882, batch_loss: 6.5713, loss: 5.3033 ||:  56%|#####5    | 1595/2851 [03:32<02:23,  8.78it/s]
2022-07-08 13:26:37,408 - INFO - tqdm - coref_precision: 0.9606, coref_recall: 0.8929, coref_f1: 0.9251, mention_recall: 0.9880, batch_loss: 695.0228, loss: 5.6173 ||:  59%|#####8    | 1673/2851 [03:43<05:10,  3.80it/s]
2022-07-08 13:26:47,445 - INFO - tqdm - coref_precision: 0.9612, coref_recall: 0.8927, coref_f1: 0.9252, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.5344 ||:  62%|######1   | 1755/2851 [03:53<01:47, 10.22it/s]
2022-07-08 13:26:57,482 - INFO - tqdm - coref_precision: 0.9610, coref_recall: 0.8931, coref_f1: 0.9253, mention_recall: 0.9879, batch_loss: 4.3218, loss: 5.5572 ||:  64%|######4   | 1832/2851 [04:03<02:22,  7.16it/s]
2022-07-08 13:27:07,531 - INFO - tqdm - coref_precision: 0.9611, coref_recall: 0.8929, coref_f1: 0.9252, mention_recall: 0.9879, batch_loss: 1.0924, loss: 5.5466 ||:  67%|######6   | 1903/2851 [04:13<01:46,  8.91it/s]
2022-07-08 13:27:17,544 - INFO - tqdm - coref_precision: 0.9607, coref_recall: 0.8923, coref_f1: 0.9248, mention_recall: 0.9879, batch_loss: 0.0003, loss: 5.6459 ||:  69%|######9   | 1972/2851 [04:23<01:48,  8.14it/s]
2022-07-08 13:27:27,763 - INFO - tqdm - coref_precision: 0.9602, coref_recall: 0.8922, coref_f1: 0.9245, mention_recall: 0.9879, batch_loss: 16.5276, loss: 5.6845 ||:  72%|#######1  | 2040/2851 [04:33<01:53,  7.18it/s]
2022-07-08 13:27:38,023 - INFO - tqdm - coref_precision: 0.9607, coref_recall: 0.8927, coref_f1: 0.9250, mention_recall: 0.9879, batch_loss: 13.3270, loss: 5.5715 ||:  74%|#######4  | 2122/2851 [04:43<01:33,  7.83it/s]
2022-07-08 13:27:48,121 - INFO - tqdm - coref_precision: 0.9611, coref_recall: 0.8925, coref_f1: 0.9250, mention_recall: 0.9873, batch_loss: 0.0105, loss: 5.4820 ||:  77%|#######7  | 2203/2851 [04:53<01:21,  8.00it/s]
2022-07-08 13:27:58,200 - INFO - tqdm - coref_precision: 0.9614, coref_recall: 0.8929, coref_f1: 0.9254, mention_recall: 0.9874, batch_loss: -0.0000, loss: 5.4428 ||:  79%|#######9  | 2266/2851 [05:03<01:03,  9.27it/s]
2022-07-08 13:28:08,524 - INFO - tqdm - coref_precision: 0.9616, coref_recall: 0.8935, coref_f1: 0.9258, mention_recall: 0.9875, batch_loss: 5.6402, loss: 5.4200 ||:  82%|########2 | 2345/2851 [05:14<01:33,  5.38it/s]
2022-07-08 13:28:18,580 - INFO - tqdm - coref_precision: 0.9617, coref_recall: 0.8934, coref_f1: 0.9258, mention_recall: 0.9876, batch_loss: 0.0000, loss: 5.3789 ||:  85%|########5 | 2425/2851 [05:24<00:50,  8.43it/s]
2022-07-08 13:28:28,666 - INFO - tqdm - coref_precision: 0.9613, coref_recall: 0.8928, coref_f1: 0.9253, mention_recall: 0.9876, batch_loss: 11.3229, loss: 5.4732 ||:  87%|########7 | 2494/2851 [05:34<00:46,  7.62it/s]
2022-07-08 13:28:38,843 - INFO - tqdm - coref_precision: 0.9618, coref_recall: 0.8933, coref_f1: 0.9258, mention_recall: 0.9878, batch_loss: 12.4840, loss: 5.4162 ||:  90%|######### | 2576/2851 [05:44<00:38,  7.22it/s]
2022-07-08 13:28:49,003 - INFO - tqdm - coref_precision: 0.9621, coref_recall: 0.8934, coref_f1: 0.9260, mention_recall: 0.9878, batch_loss: 0.1279, loss: 5.3608 ||:  93%|#########3| 2653/2851 [05:54<00:28,  7.01it/s]
2022-07-08 13:28:59,117 - INFO - tqdm - coref_precision: 0.9625, coref_recall: 0.8943, coref_f1: 0.9267, mention_recall: 0.9880, batch_loss: 7.3315, loss: 5.2911 ||:  96%|#########5| 2734/2851 [06:04<00:13,  8.50it/s]
2022-07-08 13:29:09,218 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8942, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 0.0004, loss: 5.3189 ||:  99%|#########8| 2811/2851 [06:14<00:05,  7.95it/s]
2022-07-08 13:29:12,949 - INFO - tqdm - coref_precision: 0.9621, coref_recall: 0.8942, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 0.4875, loss: 5.3090 ||: 100%|#########9| 2838/2851 [06:18<00:01,  6.67it/s]
2022-07-08 13:29:13,215 - INFO - tqdm - coref_precision: 0.9621, coref_recall: 0.8943, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 6.1441, loss: 5.3093 ||: 100%|#########9| 2839/2851 [06:18<00:02,  5.77it/s]
2022-07-08 13:29:13,317 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8942, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.3074 ||: 100%|#########9| 2840/2851 [06:18<00:01,  6.36it/s]
2022-07-08 13:29:13,439 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8942, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.3055 ||: 100%|#########9| 2841/2851 [06:19<00:01,  6.72it/s]
2022-07-08 13:29:13,662 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8942, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 0.1208, loss: 5.3018 ||: 100%|#########9| 2843/2851 [06:19<00:01,  7.49it/s]
2022-07-08 13:29:13,808 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8942, coref_f1: 0.9264, mention_recall: 0.9880, batch_loss: 6.5078, loss: 5.3023 ||: 100%|#########9| 2844/2851 [06:19<00:00,  7.34it/s]
2022-07-08 13:29:13,948 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8942, coref_f1: 0.9265, mention_recall: 0.9880, batch_loss: 0.6086, loss: 5.3006 ||: 100%|#########9| 2845/2851 [06:19<00:00,  7.29it/s]
2022-07-08 13:29:14,115 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8943, coref_f1: 0.9265, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.2969 ||: 100%|#########9| 2847/2851 [06:19<00:00,  8.69it/s]
2022-07-08 13:29:14,338 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8943, coref_f1: 0.9265, mention_recall: 0.9880, batch_loss: 0.0214, loss: 5.2965 ||: 100%|#########9| 2849/2851 [06:19<00:00,  8.79it/s]
2022-07-08 13:29:14,536 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8943, coref_f1: 0.9265, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.2928 ||: 100%|##########| 2851/2851 [06:20<00:00,  9.20it/s]
2022-07-08 13:29:14,537 - INFO - tqdm - coref_precision: 0.9622, coref_recall: 0.8943, coref_f1: 0.9265, mention_recall: 0.9880, batch_loss: 0.0000, loss: 5.2928 ||: 100%|##########| 2851/2851 [06:20<00:00,  7.50it/s]
2022-07-08 13:29:15,411 - INFO - allennlp.training.trainer - Validating
2022-07-08 13:29:15,412 - INFO - tqdm - 0%|          | 0/397 [00:00<?, ?it/s]
2022-07-08 13:29:25,506 - INFO - tqdm - coref_precision: 0.7828, coref_recall: 0.7302, coref_f1: 0.7554, mention_recall: 0.9624, batch_loss: 73.3986, loss: 90.6777 ||:  53%|#####2    | 209/397 [00:10<00:07, 26.62it/s]
2022-07-08 13:29:34,990 - INFO - tqdm - coref_precision: 0.7801, coref_recall: 0.7262, coref_f1: 0.7519, mention_recall: 0.9631, batch_loss: 88.4972, loss: 90.9754 ||: 100%|##########| 397/397 [00:19<00:00, 20.28it/s]
2022-07-08 13:29:36,881 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2022-07-08 13:29:36,882 - INFO - allennlp.training.callbacks.console_logger - coref_f1           |     0.927  |     0.752
2022-07-08 13:29:36,882 - INFO - allennlp.training.callbacks.console_logger - coref_precision    |     0.962  |     0.780
2022-07-08 13:29:36,882 - INFO - allennlp.training.callbacks.console_logger - coref_recall       |     0.894  |     0.726
2022-07-08 13:29:36,882 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  37455.680  |       N/A
2022-07-08 13:29:36,882 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.293  |    90.975
2022-07-08 13:29:36,882 - INFO - allennlp.training.callbacks.console_logger - mention_recall     |     0.988  |     0.963
2022-07-08 13:29:36,882 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  9626.746  |       N/A
2022-07-08 13:29:36,882 - INFO - allennlp.training.trainer - Epoch duration: 0:06:42.490631
2022-07-08 13:29:36,882 - INFO - allennlp.training.trainer - Estimated training time remaining: 14:35:55
2022-07-08 13:29:36,882 - INFO - allennlp.training.trainer - Epoch 20/149
2022-07-08 13:29:36,882 - INFO - allennlp.training.trainer - Worker 0 memory usage: 9.4G
2022-07-08 13:29:36,882 - INFO - allennlp.training.trainer - GPU 0 memory usage: 37G
2022-07-08 13:29:36,883 - INFO - allennlp.training.trainer - Training
2022-07-08 13:29:36,884 - INFO - tqdm - 0%|          | 0/2851 [00:00<?, ?it/s]
2022-07-08 13:29:46,935 - INFO - tqdm - coref_precision: 0.9745, coref_recall: 0.9142, coref_f1: 0.9426, mention_recall: 0.9904, batch_loss: 0.0000, loss: 3.9634 ||:   3%|2         | 81/2851 [00:10<06:09,  7.50it/s]
2022-07-08 13:29:51,974 - INFO - root - Training interrupted by the user. Attempting to create a model archive using the current best epoch weights.
2022-07-08 13:29:51,974 - INFO - allennlp.models.archival - archiving weights and vocabulary to resulting_models/model.tar.gz