malusama
/

M2-Encoder-1B

Zero-Shot Image Classification

feature-extraction

image-text-retrieval

vision-language

Eval Results (legacy)

Model card Files Files and versions

malusama commited on Mar 18

Commit

dcdf562

·

verified ·

1 Parent(s): 5a1f1b0

Add top-of-page benchmark figure

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -96,6 +96,8 @@ It supports Chinese-English image-text retrieval, zero-shot image classification
 This is the larger M2-Encoder variant with a wider backbone and 1024-dimensional embeddings, intended for better retrieval and zero-shot classification quality.
 ## Links
 - Paper: https://arxiv.org/abs/2401.15896

 This is the larger M2-Encoder variant with a wider backbone and 1024-dimensional embeddings, intended for better retrieval and zero-shot classification quality.
+![Benchmark overview](https://raw.githubusercontent.com/alipay/Ant-Multi-Modal-Framework/main/prj/M2_Encoder/pics/effect.png)
 ## Links
 - Paper: https://arxiv.org/abs/2401.15896