Open Data · CC-BY-NC 4.0

Un corpus émotionnel
humain et éthique

Les récits partagés sur MWA (avec consentement explicite) forment un dataset unique — des textes annotés par leurs auteurs sur quatre dimensions émotionnelles, libres d'usage pour la recherche et les IA bienveillantes.

En savoir plus Rejoindre la liste d'attente

✓ Consentement explicite par récit

✓ Anonymisation PII avant livraison

✓ Droit de retrait permanent

✓ Licence CC-BY-NC 4.0

✗ Aucune ré-identification autorisée

✗ Aucun usage publicitaire ou de ciblage

Le dataset

Ce que vous obtenez

🌊

Récits authentiques

Textes longs (300–1000 mots en moyenne), écrits à la première personne, sur des thèmes de relation, de mémoire, de deuil, de transmission.

🧠

Annotation émotionnelle 4D

Chaque texte est auto-annoté par son auteur sur 4 dimensions : valence (−1→+1), arousal (0→1), agency (0→1), lien (0→1).

🔓

Format ouvert

Livré en JSONL structuré, compatible directement avec les pipelines HuggingFace, PyTorch, et la plupart des frameworks d'entraînement LLM.

🌍

Multilingue (à venir)

Actuellement en français (Phase 0). Anglais, allemand, espagnol, portugais prévus d'ici 12 mois. Corpus créole mauricien disponible dès la Phase 0.

📊

Métadonnées riches

Thème, langue, horodatage, émotion dominante, nuances — chaque entrée est contextualisée pour faciliter le fine-tuning ciblé.

⚖️

Traçabilité juridique

Chaque consentement est versionné (hash SHA-256 du texte exact accepté). L'audit de conformité est possible à tout moment.

Format du dataset

Structure d'une entrée JSONL

Chaque ligne du fichier représente un segment annoté. Les données personnelles sont masquées par [CONTACT MASQUÉ] avant livraison.

{ "id": "mwa-XXX-s01", "text": "Je t'écris cette lettre parce que j'ai besoin…", "theme": "ouverture-vulnerable", "lang": "fr", "emotions": { "valence": 0.62, "arousal": 0.55, "agency": 0.78, "lien": 0.88 }, "dominant": "besoin de connexion", "nuances": ["vulnérabilité choisie", "intimité"] }

Licence CC-BY-NC 4.0

Usages autorisés et interdits

Autorisé ✓

Recherche académique en NLP / affective computing
Entraînement de modèles IA à usage non-commercial
Applications thérapeutiques ou de bien-être
Publications scientifiques avec citation

Interdit ✗

Toute tentative de ré-identification des auteurs
Ciblage publicitaire ou comportemental
Scoring individuel ou profilage émotionnel
Usage commercial direct sans accord préalable

Liste d'attente

Accéder au dataset

Le corpus est en phase de construction. Inscrivez-vous pour être informé(e) de sa disponibilité et discuter d'un accès anticipé.

Nom (obligatoire)

Organisation (laboratoire, entreprise…)

Usage prévu (obligatoire)

Email professionnel (obligatoire)

Réponse sous 5 jours ouvrés · Aucun engagement financier

🌊

Inscription enregistrée

Nous avons bien reçu votre demande. Nous vous contacterons à l'adresse indiquée dès que le dataset est disponible ou pour organiser un accès anticipé.

Retour à l'accueil

Un corpus émotionnelhumain et éthique