Wikipedia Research Skill

Extract verifiable research from Wikipedia with full citation provenance, entity relationships, timelines, and verification reports for AI consumption.

Why Use This Skill?

Without Skill	With Skill
Unstructured prose	Structured JSON with schema
"Various sources"	12+ citations with DOIs, PMIDs
Claims float freely	Every claim mapped to citations
No verification possible	DOI/PMID validation included
Unknown reliability	Admiralty Code quality rating
No relationships	Entity + relationship extraction
No timeline	Chronological event mapping
Dead links undetected	Archive fallback included

Complete Research Workflow

Phase 1: Extract

from scripts.citation_extractor import CitationExtractor

extractor = CitationExtractor()
research = extractor.extract_article("Subject_Name")

Phase 2: Verify

from scripts.source_verifier import SourceVerifier

verifier = SourceVerifier()

# Verify all citations (DOI, PMID, URL checks)
citation_results = verifier.verify_citations(research['citations'])

# Detect inconsistencies
inconsistencies = verifier.detect_inconsistencies(research)

# Extract Wikipedia uncertainty flags ({{citation needed}}, etc.)
flags = verifier.extract_uncertainty_flags(wikitext)

# Generate verification report
report = verifier.generate_verification_report(
    research, citation_results, inconsistencies, flags
)

Phase 3: Enrich

from scripts.entity_extractor import EntityExtractor

entity_extractor = EntityExtractor()

# Extract people, organizations, publications mentioned
entities = entity_extractor.extract_entities(research)

# Map relationships (collaborators, employers, etc.)
relationships = entity_extractor.extract_relationships(
    research, entities, "Subject Name"
)

# Build chronological timeline
timeline = entity_extractor.build_timeline(research)

# Generate knowledge graph
graph = entity_extractor.generate_knowledge_graph(
    "Subject Name", entities, relationships, timeline
)

Phase 4: Output

from scripts.research_collector import ResearchCollector

collector = ResearchCollector()
collector.save_research({
    **research,
    'verification': report,
    'knowledge_graph': graph
}, "output.json")

Output Schema (Enhanced)

{
  "article": {
    "title": "Subject Name",
    "url": "https://en.wikipedia.org/wiki/...",
    "revision_id": "1234567890",
    "extracted_at": "2026-02-03T10:30:00Z"
  },
  "sections": [{
    "heading": "Section Name",
    "content": "Text content...",
    "claims": [{
      "text": "Specific factual claim",
      "citation_ids": ["ref_1", "ref_2"],
      "confidence": 0.92
    }]
  }],
  "citations": [{
    "id": "ref_1",
    "type": "article-journal",
    "title": "Paper Title",
    "author": [{"family": "Smith", "given": "John"}],
    "DOI": "10.1234/example",
    "PMID": "12345678",
    "URL": "https://...",
    "issued": {"date-parts": [[2024, 1, 15]]}
  }],
  "verification": {
    "verification_summary": {
      "total_citations": 15,
      "verified_count": 12,
      "verification_score": 0.80,
      "dead_links": 2,
      "archived_recoveries": 1,
      "reliability_assessment": "high"
    },
    "citation_details": {
      "ref_1": {
        "status": "verified",
        "doi_valid": true,
        "pmid_valid": true,
        "url_accessible": true
      }
    },
    "inconsistencies": [],
    "uncertainty_flags": [{
      "section": "Early Life",
      "type": "citation_needed",
      "context": "..."
    }]
  },
  "knowledge_graph": {
    "nodes": [
      {"id": "Subject", "type": "subject"},
      {"id": "Harvard", "type": "organization"},
      {"id": "Collaborator Name", "type": "person"}
    ],
    "edges": [
      {"source": "Subject", "target": "Harvard", "type": "employment"},
      {"source": "Subject", "target": "Collaborator", "type": "collaborator"}
    ],
    "timeline": [
      {"date": "2010", "type": "education", "description": "PhD from..."},
      {"date": "2016", "type": "award", "description": "Received..."}
    ]
  },
  "provenance": {
    "source": "Wikipedia",
    "extraction_method": "MediaWiki API + wikitext parsing",
    "skill_version": "2.0",
    "verification_performed": true
  },
  "metadata": {
    "total_citations": 15,
    "verified_citations": 12,
    "total_claims": 24,
    "entities_extracted": 8,
    "timeline_events": 6,
    "source_quality": {
      "rating": "A",
      "score": 0.85
    }
  }
}

Scripts Reference

Script	Purpose
`wikipedia_client.py`	Core API client with caching
`citation_extractor.py`	Extract & parse citations to CSL-JSON
`research_collector.py`	Multi-article research orchestration
`source_verifier.py`	NEW: Verify DOIs, PMIDs, detect dead links
`entity_extractor.py`	NEW: Extract entities, relationships, timelines

Verification Features

Citation Validation

verifier = SourceVerifier()
result = verifier.verify_citations(citations)

# Each citation gets:
# - status: 'verified', 'accessible', 'dead_link', 'archived'
# - doi_valid: True/False (checked against doi.org)
# - pmid_valid: True/False (checked against PubMed)
# - archive_url: Wayback Machine fallback if dead

Uncertainty Detection

Automatically flags Wikipedia uncertainty templates:

{{citation needed}} - Unsourced claim
{{disputed}} - Contested information
{{original research}} - May lack sources
{{outdated}} - Information may be stale
{{who}} / {{when}} - Vague attribution

Inconsistency Detection

Cross-checks claims within the research:

Date conflicts (PhD year differs between sections)
Name variations
Contradictory facts

Entity & Relationship Extraction

Entity Types

Type	Examples
`person`	Collaborators, mentors, colleagues
`organization`	Universities, companies, institutes
`publication_venue`	Journals, conferences
`concept`	Research fields, methods

Relationship Types

Type	Meaning
`collaborator`	Research collaboration
`employment`	Work affiliation
`education`	Degree/training
`publication`	Published in venue
`award_from`	Received award from

Timeline Construction

Automatically extracts chronological events:

{
  "timeline": [
    {"date": "2005", "type": "education", "description": "BSc from University of Manchester"},
    {"date": "2010", "type": "education", "description": "PhD from Humboldt University"},
    {"date": "2011", "type": "publication", "description": "Published protein structure paper"},
    {"date": "2016", "type": "award", "description": "Received Overton Prize"}
  ]
}

Quality Metrics

Source Quality (Admiralty Code)

Rating	Score	Meaning
A	0.80+	Completely reliable - most citations verified
B	0.60-0.79	Usually reliable
C	0.40-0.59	Fairly reliable
D	0.20-0.39	Not usually reliable
E	<0.20	Unreliable

Confidence Scoring

Method: Additive heuristic based on citation metadata presence.

Each claim's confidence is the average score of its supporting citations, calculated as:

Base score:                 0.50
+ DOI present:             +0.20  (indicates peer-reviewed)
+ PMID present:            +0.15  (indexed in PubMed)
+ ISBN present:            +0.10  (published book)
+ URL present:             +0.05  (verifiable link)
+ Author info present:     +0.10  (attributable)
+ Publication venue named: +0.05  (traceable)
─────────────────────────────────
Maximum possible:           1.00

Typical scores:

Citation Type	Score
Journal article (DOI + PMID + author)	0.95-1.0
Journal article (DOI + author)	0.85
Book (ISBN + author)	0.75
Webpage (URL + author)	0.65
Bare URL only	0.55
Citation not found	0.30

Limitations of this approach:

Does NOT verify that the source actually supports the claim
Does NOT perform semantic analysis of source content
Assumes DOI ≈ peer-reviewed (not always true for preprints)
No weighting by journal reputation or citation count

For higher-confidence verification: Use source_verifier.py to validate DOIs/PMIDs exist, then manually verify claim-source alignment for critical facts.

Best Practices

Always verify - Run source_verifier on all research
Check uncertainty flags - Wikipedia often marks weak areas
Build timelines - Chronology reveals inconsistencies
Extract relationships - Context matters for understanding
Save revision_id - Wikipedia changes; enable reproducibility
Use DOIs - Most reliable citation identifiers
Check archives - Dead links often have Wayback copies

Reference Documentation

references/output_schema.md - Complete JSON schema
references/api_reference.md - Wikipedia API details
references/citation_templates.md - Parsing guide

wikipedia-research