Open Data · CC-BY-NC 4.0

Un corpus émotionnel
humain et éthique

Les récits partagés sur MWA (avec consentement explicite) forment un dataset unique — des textes annotés par leurs auteurs sur quatre dimensions émotionnelles, libres d'usage pour la recherche et les IA bienveillantes.

En savoir plus Rejoindre la liste d'attente
Consentement explicite par récit
Anonymisation PII avant livraison
Droit de retrait permanent
Licence CC-BY-NC 4.0
Aucune ré-identification autorisée
Aucun usage publicitaire ou de ciblage

Le dataset

Ce que vous obtenez

🌊

Récits authentiques

Textes longs (300–1000 mots en moyenne), écrits à la première personne, sur des thèmes de relation, de mémoire, de deuil, de transmission.

🧠

Annotation émotionnelle 4D

Chaque texte est auto-annoté par son auteur sur 4 dimensions : valence (−1→+1), arousal (0→1), agency (0→1), lien (0→1).

🔓

Format ouvert

Livré en JSONL structuré, compatible directement avec les pipelines HuggingFace, PyTorch, et la plupart des frameworks d'entraînement LLM.

🌍

Multilingue (à venir)

Actuellement en français (Phase 0). Anglais, allemand, espagnol, portugais prévus d'ici 12 mois. Corpus créole mauricien disponible dès la Phase 0.

📊

Métadonnées riches

Thème, langue, horodatage, émotion dominante, nuances — chaque entrée est contextualisée pour faciliter le fine-tuning ciblé.

⚖️

Traçabilité juridique

Chaque consentement est versionné (hash SHA-256 du texte exact accepté). L'audit de conformité est possible à tout moment.


Format du dataset

Structure d'une entrée JSONL

Chaque ligne du fichier représente un segment annoté. Les données personnelles sont masquées par [CONTACT MASQUÉ] avant livraison.

{ "id": "mwa-XXX-s01", "text": "Je t'écris cette lettre parce que j'ai besoin…", "theme": "ouverture-vulnerable", "lang": "fr", "emotions": { "valence": 0.62, "arousal": 0.55, "agency": 0.78, "lien": 0.88 }, "dominant": "besoin de connexion", "nuances": ["vulnérabilité choisie", "intimité"] }

Licence CC-BY-NC 4.0

Usages autorisés et interdits

Autorisé ✓

  • Recherche académique en NLP / affective computing
  • Entraînement de modèles IA à usage non-commercial
  • Applications thérapeutiques ou de bien-être
  • Publications scientifiques avec citation

Interdit ✗

  • Toute tentative de ré-identification des auteurs
  • Ciblage publicitaire ou comportemental
  • Scoring individuel ou profilage émotionnel
  • Usage commercial direct sans accord préalable

Liste d'attente

Accéder au dataset

Le corpus est en phase de construction. Inscrivez-vous pour être informé(e) de sa disponibilité et discuter d'un accès anticipé.

Réponse sous 5 jours ouvrés · Aucun engagement financier

🌊

Inscription enregistrée

Nous avons bien reçu votre demande. Nous vous contacterons à l'adresse indiquée dès que le dataset est disponible ou pour organiser un accès anticipé.

Retour à l'accueil