Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 12
This is a sentence-transformers model finetuned from Omartificial-Intelligence-Space/GATE-AraBert-v1. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'ما هي حقوق المدعية إذا انخفضت المبيعات بسبب سياسة المدعى عليها؟',
'[السياق: يوضح هذا الجزء رد المدعية على اعتراض المدعى عليها على تقرير الخبير وتأكيد أحقيتها في المطالبة. وقررت المحكمة متابعة النظر في الدعوى.] \n(اعتراض على ما تقدم به الخبير في تقريره أبين ما يلي: أولا: في المستهل العقد بدأ في تاريخ ٩/٤/٢٠١٧م الموافق ١٢/٧/١٤٣٨ هـ وانتهى التعاقد تاريخ 31/7/٢٠١٨م الموافق 18/١١/١٤٣٩هـ ثانيا: جاء التقرير متفقا مع ما ادعى به المدعي دون النظر لما لدى موكلتي. ثالثا : إن نقطة التعادل هي٩٢٠٠ النقطة التي في حال بلغت المبيعات أكثر منها فإنه يكون هناك تحصيل لصالح موكلتي بنسبة 7% منه أما في حال كان أقل فإن موكلتي لا تحصلها ، بشرط أن لا يكون سبب تراجع المبيعات عن هذه النسبة بسبب إهمال المدعي وإلا كان تحصيلها حقا لموكلتي . رابعا: ما اعتمد عليه الخبير في تقريره جدول مرسل من المدعي ومن إعداده حيث إن ادعاء المدعي تسليم موكلتي مبلغ 46853 ريالا وهذا الأمر غير صحيح لم تستلم موكلتي أي مبالغ. خامسا: لدى موكلتي ما يثبت إهمال المدعي وعليه فموكلتي لها الحق بالمطالبة بنسبة التحصيل بناء على م١٣/٤ من عقد الامتياز والتي نصت على : في حالة إهمال الطرف الثاني عليه تحمل النسبة نسبة 7% من المبيعات التي تقل عن نقطة التعادل . سادسا : مطالبة المدعي بنصيبه من عوائد المكافآت الممنوحة فهي مطالبة دون وجه حق حيث أنه تم احتسابها له وإعطاؤه أثناء فترة التعاقد، ويوجد لدينا ما يثبت ذلك. وتأسيسا على ذلك أطلب من فضيلتكم إلزام الخبير بأخذ ما لدى موكلتي من بينات، ورد دعوى المدعي لعدم صحتها). انتهى ما ورد بمذكرة وكيل المدعى عليها. فطلبت الدائرة من وكيلة المدعى عليها تقديم ما لديها من بينات أو مستندات والتي أشير إليها في هذا الرد، وأمهلتها إلى الجلسة القادمة، وعليه قررت الدائرة تحديد جلسة أخرى. وفي الجلسة المنعقدة بتاريخ 7/ 9/ 1444هـ حضر الطرفان، وقدم وكيل المدعية مذكرة جاء فيها ما يلي: ( أولا: استدلال المدعى عليها بالتقصير والإهمال في الفرع، مقارنة بمبيعات المالك الجديد استدلال في غير محله، لما يلي من أسباب: قامت موكلتي بتشغيل الفرع في بداية التعاقد مع المدعى عليها بدون تشغيل',
'[السياق: يتعلق هذا الجزء بوقائع القضية حيث تقدم المدعي بدعوى مطالبة المدعى عليه بسداد مبلغ 130,000 ريال كأتعاب محاماة، وأصدرت المحكمة حكمًا بإلزام المدعى عليه بالدفع. ثم قدم المدعى عليه استئنافًا طالبًا إعادة النظر وإرسال المعاملة للخبراء، وتم تحديد جلسة عبر الاتصال المرئي. وقررت المحكمة قبول الاستئناف شكليًا وتأييد الحكم الابتدائي لعدم وجود ما يعيبه.]\nFacts : بما أن واقعات القضية أوردها الحكم محل الاستئناف فالدائرة تحيل إليه درءا للتكرار، وتتلخص في أن المدعي وكالة تقدم بلائحة دعوى طلب فيها بإلزام المدعى عليه بسداد مبلغ قدره (130.000) مائة وثلاثون ألف ريال تمثل أتعاب المحاماة. وبإحالتها إلى الدائرة ناظرة القضية أصدرت حكمها محل الاستئناف القاضي بإلزام المدعى عليه بدفع المبلغ ، فقدم وكيل المدعى عليه لائحته الاستئنافية التي تضمنت طلب إعادة النظر في الحكم، وطلب إرسال المعاملة لقسم الخبراء بالمحكمة العامة بالرياض. وبعد قيدها في الاستئناف بالرقم المشار إليه أعلاه أحيلت رفق القضية إلى هذه الدائرة، التي حددت جلسة هذا اليوم العلنية عبر الاتصال المرئي. وبعد تبليغ الأطراف واستنادا إلى المادة 78 / 2 من نظام المحاكم التجارية والمادة 215 من اللائحة التنفيذية وبعد دراسة القضية، أصدرت الدائرة حكمها الماثل. Reasons : بما أن الاستئناف قدم أثناء الأجل المحدد فهو مقبول شكلا. أما فيما يتعلق بالموضوع فإن الدائرة لم يظهر لها في الاعتراض ما يحول دون تأييد الحكم محمولا على أسبابه. وقد تكفل الحكم بالرد على ما أبداه المستأنف في استئنافه. Ruling :',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
ما هي المستندات المطلوبة لإثبات دعوى تأجير سيارات؟ |
[السياق: يستكمل هذا الجزء تفاصيل المذكرات والمستندات المقدمة من المدعية لإثبات دعواها، بما في ذلك العقد وسندات تسليم السيارات وتفويض المدعى عليها، مع استثناء سيارة الرانج روفر لعدم وجود تفويض. وقررت المحكمة قبول الأدلة المقدمة ما عدا ما يتعلق بسيارة الرانج روفر.] |
ما هي شروط اختصاص المحكمة التجارية مكانياً ونوعياً؟ |
[السياق: يختتم هذا الجزء الأسباب القانونية للحكم، حيث تؤكد المحكمة اختصاصها المكاني والنوعي نظرًا لمقر المدعى عليه في جدة وطبيعة النزاع التجاري. وقررت المحكمة إلزام المدعى عليه بسداد المبلغ المتبقي البالغ 80,000 ريال بناء على الأدلة المقدمة.] |
ما هي إجراءات إيداع محضر التحقيق وتقريره؟ |
[إيداع محضر التحقيق وتقريره، طلبات القاضي المحقق معه، والتعامل مع التحقيقات السابقة.] |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
per_device_train_batch_size: 32per_device_eval_batch_size: 32num_train_epochs: 1fp16: Truemulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin| Epoch | Step | Training Loss |
|---|---|---|
| 0.1185 | 500 | 0.8943 |
| 0.2371 | 1000 | 0.574 |
| 0.3556 | 1500 | 0.5298 |
| 0.4742 | 2000 | 0.4717 |
| 0.5927 | 2500 | 0.4592 |
| 0.7112 | 3000 | 0.4635 |
| 0.8298 | 3500 | 0.4375 |
| 0.9483 | 4000 | 0.424 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
aubmindlab/bert-base-arabertv02