GitHub - kirol1995/Video_sim-1: qq browser multimodal video similarity contest

Multimodal Video Similarity Challenge

@CIKM 2021

第四名解决方案

Implementation source codes of team <618大庆神!>.

Final score: 82.8307 on test_b.

1. 模型总览

我们的最终结果由6个模型的ensemble组成，先在开头概述这6个模型：(test_a上的结果)

Model	single-model	10fold	weight
MixNextvlad	81.2	81.6	0.17
MixNextvlad_ASL	80.9	81.8	0.2
MixNextvlad_roformer	80.5	81.3	0.13
Uniter	80.3	81.4	0.13
Uniter_ASL	80.6	x	0.2
Uniter_roformer	80.2	x	0.17

部分test_b的结果：

Model	single-model	10fold	weight
Uniter	x	81.4	0.13
Uniter_ASL	80.5	x	0.2
Uniter_roformer	80.1	x	0.17

虽然MixNextvlad单模型会高一些，但是10fold之后Uniter模型应该会好一些，因为观察到MixNextvlad模型生成的结果由许多0.

2. 模型介绍

主要使用了两种模型，第一种是基于baseline改进的MixNextvald，在[1]中提出；第二种是基于transformer的Uniter [2]模型。

2.1 MixNextvlad

如图，论文中也有详细介绍，不再赘述。

2.2 Uniter

如图，视频的帧feature和句子的单词embedding经过concat之后送入bert-encoder，输出的features取平均得到最后的embedding。使用该模型时预训练任务增加了MLM（masked language modeling），只对文本进行mask，然后通过上下文的文本和图像特征共同进行MLM。

细解：

模型：视频帧feature+word embedding concat之后送入12层的预训练bert & roformer，得到的features取mean。

pretrain：最终的embedding经过cls层进行tag id的多标签分类；对输入word进行15%的随机mask，然后在输出端预测这些mask的单词（MLM）。

finetune：不再mask，直接用图像特征和文本作为输入，得到mean pooling之后的256维向量，pair计算sim后和标签算mse。

2.3 ASL

这是阿里巴巴最新提出的一种用于多标签分类的Loss [3]，可以有效解决多标签分类长尾样本的噪声问题。用它来替换baseline中的多标签分类的BCE损失，可以使得收敛更快，最终F1 score也更高。

2.4 Roformer

用来替换bert。[4]

3. 一些tricks

总体来说：先进性pretrain（多标签分类 or MLM），再进行finetune （MSE）.

NextVLAD里面的bn层不能注释掉（baseline中注释掉了）

针对预训练

替换原来的bert model，baseline中的是bert-uncased-chinese，更换成更好的chinese-roberta-wwm-ext；或者更换为roformer_chinese_base。
对于MixNextvlad 模型，在文本特征和图像特征进行fusion前增加一个对比损失函数（contrastive loss），我们认为这样能平衡二者的量纲，能促进fusion的效果，在pretrain时能有效提升spearman 3个百分点。

针对finetune

使用11-fold-cross-validation：将pairwise的数据分成11份，每次用一份进行验证，这样同一个模型可以训11个模型，最终embedding取平均。
finetune时使用三个损失函数，包括：mse loss （直接优化similarity）、KL loss （优化模型得到的sim和label sim的分布差距）、tag loss （也就是预训练的多标签分类loss）。单独使用mse会过拟合，增加后两个之后可以有效缓解。
训练轮次不宜过多，我们128的batch size只需要训练 3000或4000 steps。

4. 如何复现？

所有实验在一块3090上完成。（mixnextvlad模型在1080ti也可以跑，batch调小一些）环境：

python==3.8.0

tensorflow==2.5.0

transformers

4.1 数据准备

下载data并解压至 Video_sim 文件夹中（包括test_b）
生成pair对的tfrecord，且有11个文件（11-fold-cross-validation）

  python write_tfrecord.py

生成的结果：（每个路径下面包含 train.tfrecord & val.tfrecord）

├── data/
|   ├── pairwise/           
|   |   ├── 0-5999val/
|   |   ├── 6000-11999val/
|   |   ├── 12000-17999val/
|   |   ├── 18000-23999val/
|   |   ├── 24000-29999val/
|   |   ├── 30000-35999val/
|   |   ├── 36000-41999val/
|   |   ├── 42000-47999val/
|   |   ├── 48000-53999val/
|   |   ├── 54000-59999val/
|   |   ├── 60000-65999val/

4.2 直接测试（通过现有的ckpt得到最终的结果）

先下载final_save，mv至Video_sim文件夹中，然后直接运行run.sh文件. 该sh会运行所有模型的inference，包括6个模型的11-fold，然后对所有embedding进行一个加权的ensemble。最后输出为 result_10_b.zip

sh run.sh

PS：如果只想测试一个模型的话，以MixNextvlad为例，那只需要下载一个 final_save/10fold_1_mix, 然后运行：

python inference_pair_b.py --ckpt-file final_save/10fold_1_mix/ckpt-4014 --output-zip 10fold_b_zip/10fold_1_mix.zip

4.3 模型预训练

Pre-Train on MixNextvlad models:

MixNextvlad:

python cqrtrain_mix.py --batch-size 256 --savedmodel-path save/mix

MixNextvlad_ASL:

python cqrtrain_mix_asl.py --batch-size 256 --savedmodel-path save/mix_asl

MixNextvlad_roformer:

python cqrtrain_mix_roformer.py --batch-size 256 --savedmodel-path save/mix_roformer --bert-dir junnyu/roformer_chinese_base

Pre-Train on Uniter models:

Uniter:

python cqrtrain_mlm_mm_tag.py --batch-size 256 --savedmodel-path save/uniter --uniter-pooling mean

Uniter_ASL:

python cqrtrain_mlm_mm_tag_asl.py --batch-size 256 --savedmodel-path save/uniter_asl --uniter-pooling mean

Uniter_roformer:

python cqrtrain_mlm_mm_tag_roformer.py --batch-size 210 --savedmodel-path save/uniter_roformer --uniter-pooling mean --bert-dir junnyu/roformer_chinese_base

4.4 模型finetune

注意！在训练ASL的时候有可能会出现NAN，这种情况需要重跑一次相应的模型. 建议每次只跑sh文件里面的一个模型，把其他的注释掉，这样方便debug。

sh finetune_all.sh

如何训练单模型？

详见finetune_all.sh，里面有6个模型的单模型训练命令。

例子：

python train_pair_mix.py --batch-size 128  --savedmodel-path save/10fold/10fold_1_mix --pretrain_model_dir save/mix --kl-weight 0.5 --total-steps 4000 --train-record-pattern data/pairwise/0-5999val/train.tfrecord --val-record-pattern data/pairwise/0-5999val/val.tfrecord

参数解释：pretrain_model_dir：load的预训练模型的路径（mix/mix_asl/mix_roformer/uniter/uniter_asl/uniter_roformer）

4.5 模型inference

建议每次只跑sh文件里面的一个模型，把其他的注释掉，这样方便debug。

sh infer_all.sh

如何测试单模型？

例子：

python inference_pair_b.py --ckpt-file save/10fold/10fold_1_mix/ckpt-4012 --output-zip 10fold_b_zip/10fold_1_mix.zip

4.6 ensemble

6个10fold的模型得到的embedding进行加权求和。

python ensemble_final.py

5. References

[1] Lin R, Xiao J, Fan J. Nextvlad: An efficient neural network to aggregate frame-level features for large-scale video classification[C]//Proceedings of the European Conference on Computer Vision (ECCV) Workshops. 2018: 0-0.

[2] Chen Y C, Li L, Yu L, et al. Uniter: Universal image-text representation learning[C]//European conference on computer vision. Springer, Cham, 2020: 104-120.

[3] Ridnik T, Ben-Baruch E, Zamir N, et al. Asymmetric Loss for Multi-Label Classification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 82-91.

[4] Su J, Lu Y, Pan S, et al. Roformer: Enhanced transformer with rotary position embedding[J]. arXiv preprint arXiv:2104.09864, 2021.

Name		Name	Last commit message	Last commit date
Latest commit History 146 Commits
data		data
img		img
layers		layers
README.md		README.md
bert.py		bert.py
ckpt_2_h5.ipynb		ckpt_2_h5.ipynb
config.py		config.py
config_pair.py		config_pair.py
cqrconfig.py		cqrconfig.py
cqrmetrics.py		cqrmetrics.py
cqrmetrics_category.py		cqrmetrics_category.py
cqrmetrics_simcse.py		cqrmetrics_simcse.py
cqrmodel.py		cqrmodel.py
cqrmodel_add_tf.py		cqrmodel_add_tf.py
cqrmodel_category.py		cqrmodel_category.py
cqrmodel_mix.py		cqrmodel_mix.py
cqrmodel_mix_addtf.py		cqrmodel_mix_addtf.py
cqrmodel_mix_roformer.py		cqrmodel_mix_roformer.py
cqrtrain.py		cqrtrain.py
cqrtrain_category.py		cqrtrain_category.py
cqrtrain_mix.py		cqrtrain_mix.py
cqrtrain_mix_addtf.py		cqrtrain_mix_addtf.py
cqrtrain_mix_asl.py		cqrtrain_mix_asl.py
cqrtrain_mix_roformer.py		cqrtrain_mix_roformer.py
cqrtrain_mlm_mm.py		cqrtrain_mlm_mm.py
cqrtrain_mlm_mm_tag.py		cqrtrain_mlm_mm_tag.py
cqrtrain_mlm_mm_tag_asl.py		cqrtrain_mlm_mm_tag_asl.py
cqrtrain_mlm_mm_tag_roformer.py		cqrtrain_mlm_mm_tag_roformer.py
cqrtrain_simcse.py		cqrtrain_simcse.py
cqrtrain_uniter_tag.py		cqrtrain_uniter_tag.py
cqrtrain_withmlm.py		cqrtrain_withmlm.py
data_helper.py		data_helper.py
data_helper_mlm.py		data_helper_mlm.py
data_helper_mlm_mm.py		data_helper_mlm_mm.py
data_helper_mlm_roformer.py		data_helper_mlm_roformer.py
data_helper_pair.py		data_helper_pair.py
data_helper_pair_mask.py		data_helper_pair_mask.py
data_helper_pair_roformer.py		data_helper_pair_roformer.py
data_helper_roformer.py		data_helper_roformer.py
ensemble.py		ensemble.py
ensemble_b.py		ensemble_b.py
ensemble_final.py		ensemble_final.py
evaluate.py		evaluate.py
evaluate_pair.py		evaluate_pair.py
final_doc.md		final_doc.md
finetune_all.sh		finetune_all.sh
ft_tag_data_helper.py		ft_tag_data_helper.py
get_category_id.ipynb		get_category_id.ipynb
infer_10fold.sh		infer_10fold.sh
infer_all.sh		infer_all.sh
infer_b.sh		infer_b.sh
inference-cqr.py		inference-cqr.py
inference.py		inference.py
inference_pair.py		inference_pair.py
inference_pair_b.py		inference_pair_b.py
inference_pair_roformer_b.py		inference_pair_roformer_b.py
inference_pair_uniter_b.py		inference_pair_uniter_b.py
inference_pair_uniter_roformer_b.py		inference_pair_uniter_roformer_b.py
metrics.py		metrics.py
metrics_pair.py		metrics_pair.py
model.py		model.py
model_mlm.py		model_mlm.py
model_pair.py		model_pair.py
model_pair_add_tf.py		model_pair_add_tf.py
model_pair_mix.py		model_pair_mix.py
model_pair_mix_addtf.py		model_pair_mix_addtf.py
model_pair_mix_rank.py		model_pair_mix_rank.py
model_pair_mix_roformer.py		model_pair_mix_roformer.py
model_pair_uniter.py		model_pair_uniter.py
model_transformer.py		model_transformer.py
modeling_tf.py		modeling_tf.py
requirements.txt		requirements.txt
roformer.py		roformer.py
run.sh		run.sh
run_10fold.sh		run_10fold.sh
tag_data_helper.py		tag_data_helper.py
test.txt		test.txt
test_mlm.ipynb		test_mlm.ipynb
train.py		train.py
train_mlm.py		train_mlm.py
train_pair.py		train_pair.py
train_pair_mix.py		train_pair_mix.py
train_pair_mix_addtf.py		train_pair_mix_addtf.py
train_pair_mix_asl.py		train_pair_mix_asl.py
train_pair_mix_rank.py		train_pair_mix_rank.py
train_pair_mix_roformer.py		train_pair_mix_roformer.py
train_pair_mix_roformer_asl.py		train_pair_mix_roformer_asl.py
train_pair_mix_roformer_huber.py		train_pair_mix_roformer_huber.py
train_pair_uniter.py		train_pair_uniter.py
train_pair_uniter_tag.py		train_pair_uniter_tag.py
train_pair_uniter_tag_asl.py		train_pair_uniter_tag_asl.py
train_pair_uniter_tag_mlm.py		train_pair_uniter_tag_mlm.py
train_pair_uniter_tag_roformer.py		train_pair_uniter_tag_roformer.py
util.py		util.py
write_tfrecord.ipynb		write_tfrecord.ipynb
write_tfrecord.py		write_tfrecord.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Multimodal Video Similarity Challenge

@CIKM 2021

第四名解决方案

Implementation source codes of team <618大庆神!>.

Final score: 82.8307 on test_b.

1. 模型总览

2. 模型介绍

2.1 MixNextvlad

2.2 Uniter

2.3 ASL

2.4 Roformer

3. 一些tricks

针对预训练

针对finetune

4. 如何复现？

4.1 数据准备

4.2 直接测试（通过现有的ckpt得到最终的结果）

4.3 模型预训练

4.4 模型finetune

4.5 模型inference

4.6 ensemble

5. References

About

Releases

Packages

Languages

kirol1995/Video_sim-1

Folders and files

Latest commit

History

Repository files navigation

Multimodal Video Similarity Challenge

@CIKM 2021

第四名解决方案

Implementation source codes of team <618大庆神!>.

Final score: 82.8307 on test_b.

1. 模型总览

2. 模型介绍

2.1 MixNextvlad

2.2 Uniter

2.3 ASL

2.4 Roformer

3. 一些tricks

针对预训练

针对finetune

4. 如何复现？

4.1 数据准备

4.2 直接测试（通过现有的ckpt得到最终的结果）

4.3 模型预训练

4.4 模型finetune

4.5 模型inference

4.6 ensemble

5. References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages